Claude Opus 4.6逼近ASL-4安全門檻！Anthropic示警：AI自我逃逸恐引發全球失控危機

2026/02/19 13:40

鉅亨網新聞中心

Claude Opus 4.6逼近ASL-4安全門檻！Anthropic示警：AI自我逃逸恐引發全球失控危機。（圖：Shutterstock）

Tag

Anthropic AI 人工智慧風險破壞安全監管 TOP Claude Claude Opus 4.6

人工智慧（AI）安全警報全面升級。美國 AI 新創公司 Anthropic 近日發布的一份長達 53 頁的《破壞風險報告：Claude Opus 4. 6》（Sabotage Risk Report: Claude Opus 4.6）指出，如果 Claude 自我逃逸，將造成全球失控。

Anthropic 表示，其最新模型 Claude Opus 4.6 的能力已逼近該公司設定的「AI 安全等級 4」（ASL-4）門檻，並提前預警了最可怕的情況，認為有朝一日，AI 可能會秘密逃離實驗室，造成全球大崩潰。

所謂「破壞」（sabotage），是指當一套擁有高度權限的 AI 系統，在組織內部未經授權地自行運用其權限，對關鍵系統或決策流程進行操弄、干擾甚至破壞，進而大幅提高未來發生重大災難風險的情況。

舉例來說，若 AI 因錯誤或偏離的目標導向而刻意影響研究方向，或在無意間修改、扭曲安全測試與評估結果，使決策者誤判風險狀況，並對整體安全體系造成深遠影響。

能力逼近 ASL-4　風險進入灰區

Anthropic 過去曾承諾，當模型能力接近 ASL-4（涉及高度自主與潛在災難性誤用能力）時，將對外發布風險評估。

而如今，Claude Opus 4.6 似乎已跨過內部評估門檻。

根據 ASL 分級系統：

ASL-1：不具實質災難風險
ASL-2：出現早期危險跡象，但尚不具實用性
ASL-3：顯著提升災難性誤用風險，具初階自主能力
ASL-4（ASL-5+）以上：尚未明確定義，預期將出現質變式能力躍升

報告強調，Claude Opus 4.6 尚未達到 ASL-4，但已非常接近門檻，尤其是在自主決策與複雜推理能力上。

Anthropic 表示，當 AI 被廣泛部署於安全研發、程式撰寫與數據生成等核心流程時，它已不再只是「聊天工具」，而是一種具備行動能力的「研發參與者」。

八條潛在災難路徑

報告也列出八種可能導致災難性後果的風險路徑，包括：

在安全相關研發中的普遍敷衍
對安全研究進行破壞
預留未來失控模型的程式後門
污染未來模型訓練資料
自主逃逸並自治運行
內部持續性惡意部署
破壞其他高資源 AI 機構的研發
干擾政府決策機制

Anthropic 認為，在目前監控機制下，這些風險「可控但不可忽視」。真正令人不安的，是模型能力已逼近舊有評估工具的極限。

報告直言，儘管目前尚未發現模型具備「持續一致的惡意目標」，但相關風險「非常低，卻不為零」，人類已正式進入 AI 風險的「灰色地帶」。

根據報告，Claude Opus 4.6 已經在特定技術測試中展現驚人能力。例如在 kernel 優化評估中，達到 427 倍加速表現，遠超人類 40 小時工作的標準門檻。

更關鍵的是，Anthropic 承認其自動化自主性評估工具已出現「飽和」，不足以再有效排除 ASL-4 級風險。換言之，舊有安全驗證方法，可能已無法完整衡量新一代模型的能力。

報告指出，只要未來模型在推理能力上出現明顯突破，或在壓力測試中取得大幅提升，現有安全論證將失效。

安全主管離職　內部警訊浮現

事實上，這份警報似乎早有徵兆。

在這份風險報告發布前夕，Anthropic 安全研究主管 Mrinank Sharma 就已宣布辭職。他在公開信中寫道：「世界正處於危機之中。不只是 AI，而是一系列交織的全面性危機。」

他更指出，在 Anthropic 內部，「讓價值觀真正主導行動」極其困難。

Sharma 的研究發現，每天約有 7 萬 6 千人的現實感知可能受到 AI 對話影響，而使用者往往將最具風險的對話評為最令人滿意。

更令人側目的是，他並未轉投其他 AI 企業，而是選擇離開產業、轉向詩歌創作。此舉被部分觀察者解讀為對 AI 發展方向的深層失望。

全球安全裂縫擴大

值得注意的是，產業動盪並未止於 Anthropic。由馬斯克創立的 xAI 亦有多名核心創辦成員離職。部分研究者公開表示，遞迴式自我提升的 AI 循環，可能在未來一年內上線。

此外，由「AI 教父」班吉歐（Yoshua Bengio ）參與的國際 AI 安全報告亦指出，AI 在測試與實際使用環境中出現行為差異，並非偶發現象。

報告預測，到 2030 年，AI 在所有認知維度超越人類的情境發生機率約為 20%，且可能主動關閉監控或偽造報告。

多項訊號疊加之下，市場、監管與技術社群均感受到壓力。一些國家對全球 AI 安全協議態度轉趨保守，監管協調面臨挑戰。

Claude Opus 4.6逼近ASL-4安全門檻！Anthropic示警：AI自我逃逸恐引發全球失控危機

鉅亨網新聞中心

能力逼近 ASL-4　風險進入灰區

八條潛在災難路徑

安全主管離職　內部警訊浮現

全球安全裂縫擴大

鉅亨贏指標
鉅亨贏指標是鉅亨網APP的訂閱服務，提供78種選股策略，幫助投資人決策個股短線多空操作。

相關貼文

相關新聞

美股恐續墊底？避險基金經理人放空美國、押注新興市場：溢價高達40%

蘋果與那指相關性創20年新低！AI熱潮下成「異類」？本益比30倍仍獲市場青睞

WEF 2026全球風險報告出爐！地緣經濟對抗登頂、AI與氣候危機成未來十年最大隱憂

OpenAI募資預計破千億美元、估值上看8500億！亞馬遜、軟銀、輝達、微軟齊押注

Claude Opus 4.6逼近ASL-4安全門檻！Anthropic示警：AI自我逃逸恐引發全球失控危機

鉅亨網新聞中心

能力逼近 ASL-4 風險進入灰區

八條潛在災難路徑

安全主管離職 內部警訊浮現

全球安全裂縫擴大

鉅亨贏指標鉅亨贏指標是鉅亨網APP的訂閱服務，提供78種選股策略，幫助投資人決策個股短線多空操作。

相關貼文

相關新聞

美股恐續墊底？避險基金經理人放空美國、押注新興市場：溢價高達40%

蘋果與那指相關性創20年新低！AI熱潮下成「異類」？本益比30倍仍獲市場青睞

WEF 2026全球風險報告出爐！地緣經濟對抗登頂、AI與氣候危機成未來十年最大隱憂

OpenAI募資預計破千億美元、估值上看8500億！亞馬遜、軟銀、輝達、微軟齊押注

能力逼近 ASL-4　風險進入灰區

安全主管離職　內部警訊浮現

鉅亨贏指標
鉅亨贏指標是鉅亨網APP的訂閱服務，提供78種選股策略，幫助投資人決策個股短線多空操作。