1

熱搜:

熱門行情

最近搜尋

全部刪除

中國AI晶片重大突破 螞蟻優化AI模型 訓練成本下砍20%

鉅亨網新聞中心
螞蟻優化AI模型 (圖:REUTERS/TPG)
螞蟻優化AI模型 (圖:REUTERS/TPG)

近日,螞蟻集團在人工智慧 (AI) 領域取得了重大突破,成功利用阿里巴巴和華為製造的晶片,顯著降低了 AI 模型訓練的成本。

根據最新消息,螞蟻集團在訓練「專家混合」(MoE)模型時,計算成本從每兆 Token 635 萬元人民幣下降至 508 萬元人民幣,減少了約 20%。這項優化手段使得螞蟻的訓練效果幾乎可以與使用輝達 H800 等高階晶片的訓練效果相提並論。

螞蟻集團 (09988-HK) 的技術突破早在 3 月 11 日就已公開。當時,螞蟻的 Ling 團隊在技術報告中詳細介紹了此系列創新策略,旨在優化模型的性能和成本,而不依賴高端 GPU。在最佳化過程中,螞蟻從多個方面進行了改進,包括模型架構、訓練框架以及儲存和異常處理機制等。

在模型架構方面,螞蟻透過對密集型模型和 MoE 模型的縮放規律進行綜合分析,選出了最適合的架構以符合現有的運算資源。此外,螞蟻還開發了一個名為 DLRover 的開源項目,將多個訓練框架整合為統一的分散式深度學習平台,以提升運算效率。同時,他們也推出了輕量級偵錯工具 XPUTimer,幫助更快分析任務效能,而不增加過多記憶體使用量。

在儲存和異常處理機制的最佳化中,螞蟻採用了多租戶技術和用戶空間檔案系統(FUSE),有效提升了 MoE 場景中的 I/O 效率,並減少了訓練時間開銷。為了解決硬體故障和異常問題,螞蟻開發了多層次的異常檢測系統和自動恢復機制,確保訓練進度不受影響。

螞蟻的 Ling 系列 MoE 模型是這項技術優化的成功應用。 Ling-Lite 模型包含 168 億個參數,啟動參數為 27.5 億,而 Ling-Plus 則擁有 2900 億參數和 288 億激活參數。根據綜合評估,Ling-Lite 模型在資源和預算有限的情況下,表現與 Qwen2.5-7B-Instruct 相當,同時優於 Llama3.1-8B-Instruct 和 Mistral-7B-v0.3。

儘管 Ling-Plus 在多個方面表現優秀,但螞蟻也承認與 DeepSeek V3 相比,仍有一定差距。螞蟻團隊在訓練過程中遇到了一些挑戰,例如損失發散、損失尖峰和專家負載不平衡等,尤其是在 MoE 模型中,維持專家之間的負載平衡至關重要。為了應對這些問題,螞蟻團隊採用了尖峰緩解技術,並結合了平衡損失和路由器 Zloss 策略,從而成功避免了損失發散和專家路由失衡等問題。

此外,螞蟻在跨平台遷移訓練方面也面臨困難。他們發現,不同平台之間基礎操作的實現差異和框架問題,往往導致訓練結果的不一致。為了解決這個問題,螞蟻團隊採取了嚴格的對齊策略,透過大量前期實驗,確保不同平台間的基礎操作和通訊演算法能夠保持一致,特別關注數值計算中的微小精度誤差。

目前,螞蟻集團仍在使用輝達 (NVDA-US) 的晶片進行 AI 開發,但在最新的模型訓練中,他們更依賴 AMD 和國產廠商的替代晶片。如果國產晶片越來越受歡迎,可能會威脅到輝達在 AI 晶片市場的主導地位。儘管輝達的晶片性能強勁且需求高,但由於出口限制,這也可能讓輝達的市佔面臨挑戰。

相關貼文

left arrow
right arrow