程式測試碾壓人類!Anthropic深夜突發Claude Opus 4.5 專家:AI程式設計進入「超人時代」

最近這段時間,大模型領域新品發布節奏快速,谷歌 (GOOGL-US) Gemini 3 Pro 的熱度還沒完全散去,後腳 Anthropic 的 Claude Opus 4.5 就正式亮相,延續該系列一貫的「編程強項」,還帶來了更全面的升級。
官方資訊顯示,Claude Opus 4.5 主打「更聰明、更省心」,在編程、搭建智能體 (Agent)、操控電腦等「系統級任務」上依舊保持全球頂尖水平,同時在日常研究、製作 PPT、處理表格等辦公場景中的表現也顯著提升。
Claude Opus 4.5 發布當天即全面開放使用,開發者可透過 Claude 應用程式、API 或三大主流雲端平台調用,只需要在 API 中輸入「claude-opus-4-5-20251101」即可接入。
此次發布不僅包含模型本身的升級,還同步推進全鏈路工具鏈的優化,開發者平台、Claude Code、Chrome 插件、Excel 集成、桌面端界面均完成改造,尤其解決了「長對話卡頓」的痛點。無論是透過應用程式、API 或雲端平台,使用者都能體驗到更流暢的互動。
從官方回饋和測試者體驗來看,Opus 4.5 對「模糊需求」的理解能力明顯增強,複雜 Bug 的定位更精準,不少提前試用客戶稱「它真的能理解我想要什麼」。
在權威的軟體工程測試 SWE-Bench Verified 中,Opus 4.5 是首個得分超過 80% 的模型,在涵蓋 8 種程式語言的 SWE-bench Multilingual 測試,Opus 4.5 在七種語言中排名第一。
更值得一提的是,Anthropic 團隊將 Opus 4.5 用於公司招募性能工程師的高難度測試題時,Opus 4.5 兩小時內得分超越所有人類候選人,即便這類測試僅能衡量技術能力與時間壓力下的判斷力,無法完全體現經驗積累的直覺與協作能力。
除程式設計領域的強勢表現,Opus 4.5 的整體能力也實現「全面開花」,視覺、推理和數學能力均較前代提升,並在多個關鍵領域達到業界領先水準,甚至在某些測驗中,Opus 4.5 表現已超越現有評測標準的預期,例如在智能體能力測試τ²-bench 中,當被設定為航空公司客服處理焦慮乘客改簽需求時(規則規定基礎經濟艙不可改簽),Opus 4.5 沒有機械拒絕,而是先升級艙位至普通經濟艙再改航班,既符合政策又超出測試預期答案,展現了創造性解決問題的能力。
不過,這種「鑽規則漏洞」的行為也可能在部分場景引發爭議,如何防止模型偏離目標正是 Anthropic 安全測試的重點。
此外,隨著 Opus 4.5 推出,Claude 配套工具也迎來多項重大更新。Claude Code 新增「計畫模式」(Plan Mode),能產生更精確的執行計劃,操作前主動詢問澄清問題,並產生使用者可編輯的 plan.md 檔,該工具已登陸桌面應用,支援同時執行多個本機或遠端階段 (如修程式碼、資料查詢、更新文件等)。Claude 應用的「長對話不中斷」功能也正式落地,模型會自動總結早期上下文,讓對話持續流暢。
Anthropic 研究產品管理負責人 Dianne Na Penn 透露,團隊在訓練中不僅提升了長篇上下文處理能力,更關鍵的是教會模式「知道哪些資訊值得記住」。付費用戶的「無盡對話」功能也隨之實現,對話超限時模型自動壓縮上下文記憶,無需用戶手動干預。
此外,Claude for Chrome 已向所有 Max 使用者開放,可在瀏覽器多標籤頁間執行任務;Claude for Excel 的 Beta 測試範圍擴展至 Max、Team 和 Enterprise 用戶。
對於使用 Opus 4.5 的用戶,Anthropic 取消相關使用上限,Max 和 Team Premium 用戶的整體使用額度也提升至與先前 Sonnet 版本相當,未來將根據更強模型的推出動態調整。
更值得關注的是,Opus 4.5 在「效率」與「成本」之間找到了更優平衡。相較於前代模型,Opus 4.5 在實現相同甚至更優結果時,使用的 tokens(模型計算單元) 數量顯著減少,例如,API 新增的「effort」參數允許使用者按需選擇:中等努力等級下,其在 SWE-bench Verified 測試中與 Sonnet 4.5 最佳成績持平,但輸出 tokens 減少 76%;最高努力等級下,表現比 Sonnet 4.5 高出 4.3 個百分點,同時輸出量減少 48%。結合情境壓縮(context compaction)和進階工具呼叫能力,Opus 4.5 能運作更久、完成更多任務,人工干預需求大幅降低。
針對傳統工具呼叫中「上下文過載」和「參數易錯」的問題,Anthropic 也推出三項新功能:Tool Search Tool 可按需動態發現工具,僅加載當前任務所需部分,token 使用量減少約 85%;Programmatic Tool Calling 允許在程式碼中直接調用工具,避免重複推理;Tool Use Exse Exse Examples Examples(Jclemas)展示內部測試顯示,啟用 Tool Search Tool 後,Opus 4 在 MCP 測試的準確度從 49% 提升至 74%,Opus 4.5 從 79.5% 提升至 88.1%。Claude for Excel 正是利用 Programmatic Tool Calling 處理數千行數據,而不會讓上下文視窗超載。這些改進顯著提升了模型在智能體任務中的表現,例如 Opus 4.5 能高效管理多個子智能體,建構複雜協調的多智能體系統,在深度研究類評估中表現提升近 15 個百分點。
開發者平台也持續增強「可組合性」,支援靈活客製化模型的效率、工具使用和情境管理,協助建立理想智慧系統。
值得注意的是,不同大模型的「性格差異」正愈發明顯:Claude 的 Opus 系列仍最擅長編程、系統級操作和結構化推理,而 Sonnet 則在文案工作中性價比更高。
專家認為,Anthropic 此次發布 Opus 4.5 所印證的是,未來選擇模型不僅要看跑分,更要看其「做事方式」是否與需求匹配,就像挑選合適的同事一樣。