梁文鋒新論文公開降本秘訣!V3模型以50%成本解鎖大模型訓練新紀元 六招破算力瓶頸

中國 AI 獨角獸企業 DeepSeek 團隊周三 (14 日) 發布具有里程碑意義的論文,揭示其最新大模型 DeepSeek-V3 的核心技術革新,創辦人兼執行長梁文鋒也是署名作者之一。
該模型在硬體架構和模型設計方面的關鍵創新,為實現具有成本效益的大規模訓練和推理提供思路。透過硬體架構與模型設計的深度協同優化,在訓練成本、記憶體效率與推理速度三大領域實現突破性進展,為全球 AI 基礎設施發展指明新方向。
論文著重於探討三大方向。一是硬體驅動的模型設計,分析硬體功能如何影響 DeepSeek-V3 中的架構選擇;二是硬體和模型之間的相互依賴關係,硬體功能如何塑造模型創新,以及大模型不斷變化的需求如何推動對下一代硬體的需求;三是硬體開發的未來方向,探索未來硬體和模型架構的協同設計,力圖打造可擴展、經濟高效的 AI 系統。
大模型的指數級擴張長期受制於記憶體容量不足、運算效率低與互連頻寬限制等三大硬體瓶頸。DeepSeek-V3 透過六大技術創新組合拳破解困局,採用 FP8 混合精準度訓練讓記憶體消耗減半,獨創多頭潛在注意力 (MLA) 技術將 KV(鍵值)快取壓縮至傳統方案的七分之一,每 token 訓練成本降至 250 GFLOPS。更令人矚目的是,MoE(混合專家)架構允許 671B 參數模型單 token 僅啟動 37B 參數,相較同類稠密模型降低近 90% 計算負載。
論文通訊作者、DeepSeek 創辦人梁文鋒說:「這相當於用傳統超算十分之一的成本來建構千億參數模型。」
實測數據顯示,配備消費級 GPU 的伺服器叢集成本約 1 萬美元,便能驅動完整版 V3 模型,推理速度達每秒 20 token,較主流方案提升近 10 倍。這種「平民化」技術路徑,有望重塑 AI 研發門檻。
技術突破源自於軟硬體深度結合的創新思維。在模型設計層面,DeepSeek 重新定義計算 - 通訊權衡策略。透過雙微批次重疊技術實現 90% 以上的運算通訊並行度,且首創多 token 預測 (MTP) 框架,將解碼效率提升 40%。此外,採用分層網路拓撲 MPFT,在成本降低 40% 的前提下達成與頂級叢集相當的互連性能。
在互連優化方面,DeepSeek 提出了硬體感知並行策略,摒棄傳統張量並行 (TP),轉而採用流水線並行(PP) 和專家並行 (EP),開源 DeepEP 庫提升 EP 效率。在網路拓撲方面,DeepSeek 推出的兩層多層胖樹(MPFT) 網路拓撲,通過 8 個獨立平面實現故障隔離與負載均衡,相比傳統三層拓撲大大降低成本。
更值得關注的是對硬體發展的前瞻佈局。論文中提出六大未來方向。從 DRAM 堆疊加速器突破記憶體牆,到晶圓級系統整合提升運算密度;從動態路由協定優化網路延遲,到校驗與冗餘機制保障訓練穩定性。這些理念正在反向推動晶片製造商革新架構,某國際 GPU 大廠已宣布跟進 FP8(8 位元浮點) 指令集開發。
論文中寫道:「針對當前硬體在記憶體带寬、互連带寬和計算效率的瓶頸,團隊提出未來硬體應重點發展精準低精度計算單元、Scale-Up/Scale-Out(縱向擴展 / 橫向擴展) 收斂架構及低延遲智能網络,並強調通過硬體原生支援通信壓縮、記憶體語義排序和故障容錯機制,提升系統魯棒性。」
根據高盛分析師測算,同等算力下,V3 模型訓練成本較 Llama 3.1 降低 62%,代表新創公司也能進行千億參數級模型研發,更深遠的影響在於 MoE 架構的普及化。當本地 PC 即可部署個人化 AI 代理時,雲端運算壟斷格局恐將瓦解。
OpenAI 共同創辦人 Andrej Karpathy 公開讚歎稱,「V3 證明了高效能與低成本的共生可能,超大規模叢集時代或許將終結」,但持保留意見者指出,其依賴的高頻寬互連設備如 GB200 NVL72 仍屬稀缺資源,技術普惠性尚待驗證。
隨著論文公開,全球技術社群開始解構 V3 的革命性意義。在自動駕駛領域,某重量級企業正嘗試將 MTP 框架植入即時決策系統,生物醫藥界則瞄準 FP8 精度下的蛋白質結構預測提速,更積極的創業家甚至打算基於消費 GPU 搭建去中心化 AI 網路。
此外,DeepSeek 也悄悄佈局下一代研發。知情人士透露,該 AI 新創公司正測試基於晶圓級整合的新型訓練集群,目標將單 token 成本壓縮至 100 GFLOPS 以下。