程式測試碾壓人類！Anthropic深夜突發Claude Opus 4.5 專家：AI程式設計進入「超人時代」

2025/11/25 11:30

鉅亨網編譯陳韋廷

程式測試碾壓人類！Anthropic深夜突發Claude Opus 4.5 專家：AI程式設計進入「超人時代」（圖：Shutterstock）

Tag

Claude Opus 4.5 Anthropic 編程谷歌大模型程式 Sonnet AI 智能體 Agent

最近這段時間，大模型領域新品發布節奏快速，谷歌 (GOOGL-US) Gemini 3 Pro 的熱度還沒完全散去，後腳 Anthropic 的 Claude Opus 4.5 就正式亮相，延續該系列一貫的「編程強項」，還帶來了更全面的升級。

官方資訊顯示，Claude Opus 4.5 主打「更聰明、更省心」，在編程、搭建智能體 (Agent)、操控電腦等「系統級任務」上依舊保持全球頂尖水平，同時在日常研究、製作 PPT、處理表格等辦公場景中的表現也顯著提升。

Claude Opus 4.5 發布當天即全面開放使用，開發者可透過 Claude 應用程式、API 或三大主流雲端平台調用，只需要在 API 中輸入「claude-opus-4-5-20251101」即可接入。

此次發布不僅包含模型本身的升級，還同步推進全鏈路工具鏈的優化，開發者平台、Claude Code、Chrome 插件、Excel 集成、桌面端界面均完成改造，尤其解決了「長對話卡頓」的痛點。無論是透過應用程式、API 或雲端平台，使用者都能體驗到更流暢的互動。

從官方回饋和測試者體驗來看，Opus 4.5 對「模糊需求」的理解能力明顯增強，複雜 Bug 的定位更精準，不少提前試用客戶稱「它真的能理解我想要什麼」。

在權威的軟體工程測試 SWE-Bench Verified 中，Opus 4.5 是首個得分超過 80% 的模型，在涵蓋 8 種程式語言的 SWE-bench Multilingual 測試，Opus 4.5 在七種語言中排名第一。

更值得一提的是，Anthropic 團隊將 Opus 4.5 用於公司招募性能工程師的高難度測試題時，Opus 4.5 兩小時內得分超越所有人類候選人，即便這類測試僅能衡量技術能力與時間壓力下的判斷力，無法完全體現經驗積累的直覺與協作能力。

除程式設計領域的強勢表現，Opus 4.5 的整體能力也實現「全面開花」，視覺、推理和數學能力均較前代提升，並在多個關鍵領域達到業界領先水準，甚至在某些測驗中，Opus 4.5 表現已超越現有評測標準的預期，例如在智能體能力測試τ²-bench 中，當被設定為航空公司客服處理焦慮乘客改簽需求時（規則規定基礎經濟艙不可改簽），Opus 4.5 沒有機械拒絕，而是先升級艙位至普通經濟艙再改航班，既符合政策又超出測試預期答案，展現了創造性解決問題的能力。

不過，這種「鑽規則漏洞」的行為也可能在部分場景引發爭議，如何防止模型偏離目標正是 Anthropic 安全測試的重點。

此外，隨著 Opus 4.5 推出，Claude 配套工具也迎來多項重大更新。Claude Code 新增「計畫模式」(Plan Mode)，能產生更精確的執行計劃，操作前主動詢問澄清問題，並產生使用者可編輯的 plan.md 檔，該工具已登陸桌面應用，支援同時執行多個本機或遠端階段 (如修程式碼、資料查詢、更新文件等)。Claude 應用的「長對話不中斷」功能也正式落地，模型會自動總結早期上下文，讓對話持續流暢。

Anthropic 研究產品管理負責人 Dianne Na Penn 透露，團隊在訓練中不僅提升了長篇上下文處理能力，更關鍵的是教會模式「知道哪些資訊值得記住」。付費用戶的「無盡對話」功能也隨之實現，對話超限時模型自動壓縮上下文記憶，無需用戶手動干預。

此外，Claude for Chrome 已向所有 Max 使用者開放，可在瀏覽器多標籤頁間執行任務；Claude for Excel 的 Beta 測試範圍擴展至 Max、Team 和 Enterprise 用戶。

對於使用 Opus 4.5 的用戶，Anthropic 取消相關使用上限，Max 和 Team Premium 用戶的整體使用額度也提升至與先前 Sonnet 版本相當，未來將根據更強模型的推出動態調整。

更值得關注的是，Opus 4.5 在「效率」與「成本」之間找到了更優平衡。相較於前代模型，Opus 4.5 在實現相同甚至更優結果時，使用的 tokens(模型計算單元) 數量顯著減少，例如，API 新增的「effort」參數允許使用者按需選擇：中等努力等級下，其在 SWE-bench Verified 測試中與 Sonnet 4.5 最佳成績持平，但輸出 tokens 減少 76%；最高努力等級下，表現比 Sonnet 4.5 高出 4.3 個百分點，同時輸出量減少 48%。結合情境壓縮（context compaction）和進階工具呼叫能力，Opus 4.5 能運作更久、完成更多任務，人工干預需求大幅降低。

針對傳統工具呼叫中「上下文過載」和「參數易錯」的問題，Anthropic 也推出三項新功能：Tool Search Tool 可按需動態發現工具，僅加載當前任務所需部分，token 使用量減少約 85%；Programmatic Tool Calling 允許在程式碼中直接調用工具，避免重複推理；Tool Use Exse Exse Examples Examples（Jclemas）展示內部測試顯示，啟用 Tool Search Tool 後，Opus 4 在 MCP 測試的準確度從 49% 提升至 74%，Opus 4.5 從 79.5% 提升至 88.1%。Claude for Excel 正是利用 Programmatic Tool Calling 處理數千行數據，而不會讓上下文視窗超載。這些改進顯著提升了模型在智能體任務中的表現，例如 Opus 4.5 能高效管理多個子智能體，建構複雜協調的多智能體系統，在深度研究類評估中表現提升近 15 個百分點。

開發者平台也持續增強「可組合性」，支援靈活客製化模型的效率、工具使用和情境管理，協助建立理想智慧系統。

值得注意的是，不同大模型的「性格差異」正愈發明顯：Claude 的 Opus 系列仍最擅長編程、系統級操作和結構化推理，而 Sonnet 則在文案工作中性價比更高。

專家認為，Anthropic 此次發布 Opus 4.5 所印證的是，未來選擇模型不僅要看跑分，更要看其「做事方式」是否與需求匹配，就像挑選合適的同事一樣。

程式測試碾壓人類！Anthropic深夜突發Claude Opus 4.5 專家：AI程式設計進入「超人時代」

鉅亨網編譯陳韋廷

相關行情

鉅亨贏指標
鉅亨贏指標是鉅亨網APP的訂閱服務，提供78種選股策略，幫助投資人決策個股短線多空操作。

相關貼文

相關新聞

Anthropic調查：約半數Claude用戶稱AI已可承擔過半工作但「這族群」最悲觀

AI競賽變政治競賽！OpenAI超強GPT-5.6發布背後的「審查風暴」

Anthropic Fable 5最快「下週」恢復開放！《Axios》：川普政府擬解除限制

受制於人！谷歌拒全額供應Gemini算力 Meta內部AI專案卡關被迫砸6000億美元蓋資料中心

程式測試碾壓人類！Anthropic深夜突發Claude Opus 4.5 專家：AI程式設計進入「超人時代」

鉅亨網編譯陳韋廷

相關行情

鉅亨贏指標鉅亨贏指標是鉅亨網APP的訂閱服務，提供78種選股策略，幫助投資人決策個股短線多空操作。

相關貼文

相關新聞

Anthropic調查：約半數Claude用戶稱AI已可承擔過半工作 但「這族群」最悲觀

AI競賽變政治競賽！OpenAI超強GPT-5.6發布背後的「審查風暴」

Anthropic Fable 5最快「下週」恢復開放！《Axios》：川普政府擬解除限制

受制於人！谷歌拒全額供應Gemini算力 Meta內部AI專案卡關 被迫砸6000億美元蓋資料中心

鉅亨贏指標
鉅亨贏指標是鉅亨網APP的訂閱服務，提供78種選股策略，幫助投資人決策個股短線多空操作。

Anthropic調查：約半數Claude用戶稱AI已可承擔過半工作但「這族群」最悲觀

受制於人！谷歌拒全額供應Gemini算力 Meta內部AI專案卡關被迫砸6000億美元蓋資料中心