Listen

Description

Claude 團隊更新Fable 5 模型安全機制,實現防護透明化。

透明化防護機制
Claude 團隊宣布針對「Fable 5」的開發安全防護進行重大調整,旨在解決過去因防護機制過於隱蔽而導致使用者難以理解的問題。主要變更包括:
系統將明確標示被觸發安全防護的請求,並自動降級至「Opus 4.8」模型處理,該標準與現行的網路及生物安全防護一致。
API 使用者現在會收到明確的拒絕理由,伺服器端的自動降級功能也將在未來幾天內上線。
團隊坦承過去選擇「隱蔽式防護」是錯誤的權衡,因為這犧牲了使用者的知情權,未來將確保使用者能清楚了解安全防護的運作及其觸發原因。

穩健性與誤判挑戰
由於安全防護機制轉為透明,意味著這些防護措施更容易受到針對性的規避嘗試(jailbreak),因此團隊必須強化分類器的穩健性。這項轉變在過渡期間將帶來以下影響:
由於分類器需要時間調整,短期內可能會出現較多的誤判(false positives)。
團隊正積極優化生物與網路安全分類器,以減少對無害請求的誤觸,並承諾會盡快縮短此調整期。

使用者回饋管道
若使用者認為請求被錯誤標記,可透過以下方式進行申訴與回饋,以協助團隊精準調校分類器:
在「Claude Code」中執行 /feedback 指令。
在 Claude.ai 或「Cowork」介面上,針對降級處理的結果點擊「倒讚」。
針對 API 請求,可填寫官方的 安全防護申訴表單。

申訴與警告機制
根據官方支援文件說明,Anthropic 設有一套完整的安全審查流程。若使用者認為帳號遭到誤鎖或收到錯誤警告,可透過以下管道處理:
帳號停權申訴:若認為帳號被錯誤停用,可填寫 申訴表單 供安全團隊調查。
警告異議:針對違反「使用政策(Usage Policy)」的警告,API 客戶可將詳細情況與帳號資訊寄送至 usersafety@anthropic.com 進行申訴。
官方提醒,由於近期產品發布導致 email 量大增,回覆時間可能會比預期更長,請使用者耐心等候。

原文:https://easyvibecoding.app/curated/1897