傳DeepSeek延後R2模型發布 執行長對性能仍不滿意

Tag
中國人工智慧 (AI) 新創公司深度求索(DeepSeek)尚未決定旗下下一代大型語言模型 R2 的正式發表時間,原因是執行長梁文峰對模型目前的性能表現仍不滿意。
根據《The Information》周四 (26 日) 引述兩位知情人士報導,R2 原計畫於 5 月推出,作為大受歡迎的 R1 推理模型後繼版本,並希望能在程式碼生成與非英語語言推理方面有所突破。
過去幾個月,DeepSeek 的工程團隊持續針對 R2 模型進行優化與調整,但尚未獲得梁文峰正式批准發布。消息指出,該公司目前已與多家中國雲端服務業者接洽,提供技術規格以便日後部署並分發該模型。不過《The Information》引述這些業者指出,即便 R2 獲得批准,也可能因美國出口限制而導致部署受阻,進一步拖累推廣進度。
目前使用 R1 模型的企業客戶多半仰賴輝達 (NVDA-US)H20 晶片運行,然而這款原本為中國市場設計的 AI 處理器,已因美國總統川普政府於今年 4 月頒布的新一輪出口限制而被禁止出口至中國。這也使得中國本地雲端供應商難以取得足夠數量的先進晶片來支援新模型運算需求。
報導指出,若 R2 發布後吸引大量企業採用,恐對中國雲端運算能力造成壓力,尤其在高效能輝達晶片供應短缺的情況下更形棘手。目前 DeepSeek 尚未對相關報導回應置評請求。