微軟自研晶片戰略加速推進!CTO:自研晶片替代超微半導體、輝達

微軟 (MSFT-US) 正加速布局自研晶片戰略,計劃以自家開發的 Maia AI 加速器,替代部分輝達 (NVDA-US) 與超微半導體 (AMD-US) GPU,在其雲端數據中心運行人工智慧(AI) 工作負載。
長期以來,微軟都依賴輝達與超微半導體供應大量 GPU,但在自研晶片領域起步較晚。直到 2023 年底,微軟才公開首款自研 AI 加速器 Maia。
相較之下,亞馬遜 (AMZN-US) 與 Google(GOOGL-US) 則多年前就投入定制中央處理器(CPU)與 AI 加速器研發。
推動這一轉型的核心原因,是這些公司對「每美元性能」的高度重視。對於超大規模雲服務提供商而言,這一指標是衡量成本效益的關鍵標準。
微軟首席技術長 Kevin Scott 表示,雖然目前輝達產品在性價比上仍表現最佳,但為滿足數據中心需求,他願意考慮任何可行方案。
他明確指出,長期規劃「毫無疑問」是讓自研晶片成為數據中心的主力。Scott 補充道,這不僅涉及晶片本身,還包括整個系統設計、網路架構及散熱管理。
他說:「我們需要自主決策的自由度,才能針對具體工作負載,實現計算資源的真正優化。」
Maia AI 加速器現況與升級
2023 年,微軟首款 Maia 100 AI 加速器 已將 OpenAI 的 GPT-3.5 模型遷移至自研晶片上運行,部分釋放了 GPU 算力。
然而,其性能與輝達、超微半導體的競品 GPU 相比仍有差距:BF16 精度算力僅 800 萬億次 / 秒(teraFLOPS),配備 64GB 高頻寬記憶體(HBM2e),記憶體頻寬為 1.8TB / 秒。
據悉,微軟正研發第二代 Maia 加速器,預計明年推出市場。新一代產品將在計算性能、記憶體容量及互聯速度上全面升級,提升競爭力。
輝達與超微半導體仍不可或缺
不過,即便未來微軟數據中心中 GPU 與 AI 專用集成電路(ASIC)的占比有所變化,自研晶片也不太可能完全取代輝達與超微半導體的 GPU。
Google 與亞馬遜過去數年部署了數萬台自研張量處理器(TPU)與 Trainium 加速器,主要加速自身工作負載,但輝達與超微半導體的 GPU 仍在其雲平台大規模運行,原因之一是客戶對主流 GPU 的需求仍然存在。
值得注意的是,除了 Maia 加速器,微軟還在研發自家 CPU「Cobalt」及一系列平台安全晶片,這些晶片能加速加密運算,保護數據中心密鑰交換過程,保障整個雲端平台的資料安全。