華為CloudMatrix 384超節點突破AI算力瓶頸!領先輝達67%

華為雲端 AI 高峰會於週五(16 日)在北京盛大登場,聚焦 AI 算力與雲端基礎設施的革新。華為雲端副總裁黃瑾在會中發表主題演講,介紹了更多全新一代 CloudMatrix 384 超節點技術細節,強調此技術將成為 AI 時代的關鍵算力引擎。
在晶片能力落後於輝達 (NVDA-US) 一代的情況下,華為轉向系統級創新,透過 CloudMatrix 384 超節點、新型高速互聯技術,實現 384 張昇騰 910C 互聯成為超級雲端伺服器,最高提供 300Pflops 的算力規模。
華為此前也表示,CloudMatrix 在多項關鍵指標上優於輝達 NVL72,整體運算能力高出 67%,記憶體容量則超出三倍以上。
CloudMatrix 384 實現了 CPU、NPU、GPU、記憶體等多樣化資源的跨伺服器統一池化,用「對等架構」替換掉傳統的「主從架構」,讓多元算力可以直接通訊,不需要透過 CPU,讓系統能夠靈活配置跨伺服器的多種資源,形成一個大規模的緊耦合的多元算力池化架構。
黃瑾指出,傳統計算架構難以支撐這種等級的運算壓力,必須藉由系統級創新突破限制。隨著 AI 大模型迅速擴張,從早期的單卡小模型訓練,演進至如今涵蓋 MoE 專家模型、長序列與多模態大模型的 AI 集群訓練,算力需求激增達 1 萬倍。
過去 8 年中,雖然單卡算力提升了 40 倍,但節點內的總線頻寬僅成長 9 倍、跨節點網路頻寬更只提升 4 倍,導致 AI 模型訓練與推理過程中,集群間的通訊延遲成為最大瓶頸。
為解決高速連接的佈局限制,華為大膽採用技術門檻極高的光模組取代傳統電纜,儘管成本高、早期故障率高,華為工程團隊仍持續優化,使其實現「1 分鐘故障感知、10 分鐘快速修復」,確保訓練與推理場景的高可用性。
黃瑾強調,CloudMatrix 384 突破傳統「一卡多專家」的瓶頸,採用「一卡一專家」的分布式推理架構,大幅提升 MoE 模型的計算與通訊效率。目前已有來自政府、醫療、零售、製造等領域的數百家企業導入,應用於智慧客服、內容創作等 AI 場景。
CloudMatrix 384 另一項重大創新則在於雙層高速網路架構。內部採用 ScaleUp 總線網路,提供 2.8Tbps 頻寬與奈秒級延遲;外部則為 ScaleOut 網路,支援微秒級延遲並具備彈性擴展能力,再加上智慧調度系統,讓 AI 任務 穩定且高效運行。
黃瑾最後表示,華為持續推動昇騰 AI 雲服務升級,已完整支援包括 DeepSeek 在內的 160 多個主流大模型,協助企業進行 AI 模型的開發、訓練、託管與應用。目前服務對象已超過 600 家企業,橫跨政府、金融、交通、製造等關鍵產業,加速產業 AI 化。
分析機構 SemiAnalysis 指出,儘管華為的晶片技術落後一代,但其自主研發的雲端超級算力解決方案 CloudMatrix 384,卻可領先輝達和超微半導體 (AMD-US) 當前市售產品一代。