Claude Opus 4.6逼近ASL-4安全門檻!Anthropic示警:AI自我逃逸恐引發全球失控危機

人工智慧(AI)安全警報全面升級。美國 AI 新創公司 Anthropic 近日發布的一份長達 53 頁的《破壞風險報告:Claude Opus 4. 6》(Sabotage Risk Report: Claude Opus 4.6)指出,如果 Claude 自我逃逸,將造成全球失控。
Anthropic 表示,其最新模型 Claude Opus 4.6 的能力已逼近該公司設定的「AI 安全等級 4」(ASL-4)門檻,並提前預警了最可怕的情況,認為有朝一日,AI 可能會秘密逃離實驗室,造成全球大崩潰。
所謂「破壞」(sabotage),是指當一套擁有高度權限的 AI 系統,在組織內部未經授權地自行運用其權限,對關鍵系統或決策流程進行操弄、干擾甚至破壞,進而大幅提高未來發生重大災難風險的情況。
舉例來說,若 AI 因錯誤或偏離的目標導向而刻意影響研究方向,或在無意間修改、扭曲安全測試與評估結果,使決策者誤判風險狀況,並對整體安全體系造成深遠影響。
能力逼近 ASL-4 風險進入灰區
Anthropic 過去曾承諾,當模型能力接近 ASL-4(涉及高度自主與潛在災難性誤用能力)時,將對外發布風險評估。
而如今,Claude Opus 4.6 似乎已跨過內部評估門檻。
根據 ASL 分級系統:
- ASL-1:不具實質災難風險
- ASL-2:出現早期危險跡象,但尚不具實用性
- ASL-3:顯著提升災難性誤用風險,具初階自主能力
- ASL-4(ASL-5+)以上:尚未明確定義,預期將出現質變式能力躍升
報告強調,Claude Opus 4.6 尚未達到 ASL-4,但已非常接近門檻,尤其是在自主決策與複雜推理能力上。
Anthropic 表示,當 AI 被廣泛部署於安全研發、程式撰寫與數據生成等核心流程時,它已不再只是「聊天工具」,而是一種具備行動能力的「研發參與者」。
八條潛在災難路徑
報告也列出八種可能導致災難性後果的風險路徑,包括:
- 在安全相關研發中的普遍敷衍
- 對安全研究進行破壞
- 預留未來失控模型的程式後門
- 污染未來模型訓練資料
- 自主逃逸並自治運行
- 內部持續性惡意部署
- 破壞其他高資源 AI 機構的研發
- 干擾政府決策機制
Anthropic 認為,在目前監控機制下,這些風險「可控但不可忽視」。真正令人不安的,是模型能力已逼近舊有評估工具的極限。
報告直言,儘管目前尚未發現模型具備「持續一致的惡意目標」,但相關風險「非常低,卻不為零」,人類已正式進入 AI 風險的「灰色地帶」。
根據報告,Claude Opus 4.6 已經在特定技術測試中展現驚人能力。例如在 kernel 優化評估中,達到 427 倍加速表現,遠超人類 40 小時工作的標準門檻。
更關鍵的是,Anthropic 承認其自動化自主性評估工具已出現「飽和」,不足以再有效排除 ASL-4 級風險。換言之,舊有安全驗證方法,可能已無法完整衡量新一代模型的能力。
報告指出,只要未來模型在推理能力上出現明顯突破,或在壓力測試中取得大幅提升,現有安全論證將失效。
安全主管離職 內部警訊浮現
事實上,這份警報似乎早有徵兆。
在這份風險報告發布前夕,Anthropic 安全研究主管 Mrinank Sharma 就已宣布辭職。他在公開信中寫道:「世界正處於危機之中。不只是 AI,而是一系列交織的全面性危機。」
他更指出,在 Anthropic 內部,「讓價值觀真正主導行動」極其困難。
Sharma 的研究發現,每天約有 7 萬 6 千人的現實感知可能受到 AI 對話影響,而使用者往往將最具風險的對話評為最令人滿意。
更令人側目的是,他並未轉投其他 AI 企業,而是選擇離開產業、轉向詩歌創作。此舉被部分觀察者解讀為對 AI 發展方向的深層失望。
全球安全裂縫擴大
值得注意的是,產業動盪並未止於 Anthropic。由馬斯克創立的 xAI 亦有多名核心創辦成員離職。部分研究者公開表示,遞迴式自我提升的 AI 循環,可能在未來一年內上線。
此外,由「AI 教父」班吉歐(Yoshua Bengio )參與的國際 AI 安全報告亦指出,AI 在測試與實際使用環境中出現行為差異,並非偶發現象。
報告預測,到 2030 年,AI 在所有認知維度超越人類的情境發生機率約為 20%,且可能主動關閉監控或偽造報告。
多項訊號疊加之下,市場、監管與技術社群均感受到壓力。一些國家對全球 AI 安全協議態度轉趨保守,監管協調面臨挑戰。