OpenAI雙箭齊發!GPT-5.1-Codex-Max與GPT-5.1 Pro同步升級 降維打擊谷歌Gemini 3

OpenAI 周三 (19 日) 正式發布自家最新的智能編程模型 GPT-5.1-Codex-Max 以及升級版的 GPT-5.1 Pro,這兩項產品被視為該公司在 AI 競賽中的雙重利器,其中 GPT-5.1-Codex-Max 作為專為軟體工程、研究與數學等複雜任務設計的模型,首次引入「壓縮」技術,使其能連續工作超過 24 小時,處理高達數百萬個 token 的任務,標誌著編程模型正式邁向「智能體化」時代。
GPT-5.1-Codex-Max 的顯著特點在於其持久的任務處理能力,該模型由 OpenAI 研究科學家 Noam Brown 主導開發,基於最新的推理模型打造,能夠在單一任務中跨越多個上下文窗口運行。
當接近上下文窗口限制時,模型會自動壓縮上下文,保留關鍵資訊,並開啟新的上下文窗口,從而實現長時間的連貫工作。
根據 OpenAI 的內部評估,該模型甚至能針對同一任務持續工作 24 小時,不斷迭代實現、修復測試失敗,並最終交付成功結果。這種能力被視為邁向更通用、更可靠 AI 系統的基礎。
在性能方面,GPT-5.1-Codex-Max 在多項編程基準測試中表現優於前代模型,例如在 SWE-bench Verified 上取得了 77.9% 的高分,在 Terminal-Bench 2.0 等測試中也顯示出顯著提升。
此外,該模型還是 OpenAI 首個專為 Windows 環境設計的編程模型,並在訓練中針對 Codex CLI 協作場景進行了優化,提升了實用性。
效率的提升是另一大亮點。在中等推理強度下,GPT-5.1-Codex-Max 完成任務所使用的思考 token 比前代模型減少約 30%,同時準確性更高。
對於不敏感於延遲但追求質量的任務,用戶還可以開啟超高強度推理模式,讓模型花費更多時間思考以輸出更優解。OpenAI 預計,這種 token 效率的提升將為開發者帶來實際的成本節省。
為了展示模型能力,OpenAI 分享了多個由 GPT-5.1-Codex-Max 開發的網頁應用,其中一個案例是完全運行在瀏覽器中的 CartPole 強化學習沙箱,用戶可以觀看倒立擺的動態,並通過內置的策略梯度控制器訓練模型。該應用還提供神經網絡可視化功能,讓用戶實時觀察模型的權重和激活狀態。
在實現相同功能的前提下,GPT-5.1-Codex-Max 僅使用了 27k token,而前代模型需要 37k token。另一個案例是太陽系重力模擬器,用戶可以通過拖拽和點擊觀察天體運動軌跡,並調節參數直觀理解物理規律。此外,該模型還開發了用於演示折射定律 (Snell"s Law) 的光線折射應用,進一步體現了其在可視化與交互設計上的能力。
用戶體驗方面,許多開發者對新模型表示讚賞,例如英國客製化賀卡公司 Moonpig 的 AI 部門負責人 Peter Gostev 分享稱,GPT-5.1-Codex-Max 在處理金門大橋模擬器任務時,表現出主動性和高效性,遠超以往效果。AI 工程師 Peter Dedene 則提到,模型在處理問題時會自主決定延後處理,顯示出一定的規劃能力。
然而,隨著模型能力提升,安全性也成為關注焦點。OpenAI 強調,GPT-5.1-Codex-Max 目前運行在高度隔離的安全沙盒中,文件寫入僅限自身工作空間,網絡訪問默認關閉,以減少提示詞注入等風險。
與此同時,OpenAI 還悄悄地推出 GPT-5.1 Pro,該模型面向所有 Pro 訂閱用戶開放,主打更清晰、更強大的回答能力,尤其在寫作輔助、數據科學和商業任務方面有顯著提升。
儘管官方未發布詳細內容,但早期測試者反應正面,例如傑克森實驗室教授 Derya Unutmaz 表示,GPT-5.1 Pro 在免疫學問題的回答中,表現出更高的清晰度和洞察力,能讓非專業人士輕鬆理解複雜概念。
第三方評估機構 Epoch AI 的數據也顯示,GPT-5.1 Pro 在高效推理模式下的能力指數與 GPT-5 持平,均為 151 分,表明其性能已接近前代旗艦模型。
HyperWrite AI 執行長 Matt Shumer 在體驗報告中指出,GPT-5.1 Pro 是目前最強大的模型,尤其擅長深度思考和規劃,但回應速度較慢,且僅限於 ChatGPT 界面使用,無法集成到 IDE 或其他工具鏈中。
相比之下,Gemini 3 在日常任務和創意設計上更具優勢,反映出當前 AI 模型在不同場景下的專長分化。
整體來看,OpenAI 的此次發布凸顯編程模型向長時間、自主任務處理的演進趨勢。GPT-5.1-Codex-Max 的壓縮機制和持久工作能力為複雜項目開發提供了新的可能性,而 GPT-5.1 Pro 則在通用智能問答上進一步提升。
隨著運行成本下降和安全措施強化,這些進展可能推動軟體開發從「寫代碼」轉變至「描述需求 + 審核結果」,智能體有望在未來承擔更多實現與迭代工作,但模型的可控性、集成度和應用場景的適配性仍是必須持續優化的方向。