1

熱搜:

熱門行情

最近搜尋

全部刪除

Google TPU如何衝擊「輝達帝國」?SemiAnalysis深度解讀

鉅亨網新聞中心
Google TPU如何衝擊「輝達帝國」?SemiAnalysis深度解讀。(圖:Shutterstock)
Google TPU如何衝擊「輝達帝國」?SemiAnalysis深度解讀。(圖:Shutterstock)

2025 年的 AI 晶片市場正處於一個微妙的轉捩點。儘管輝達 (NVDA-US) 憑藉其 Blackwell 架構仍維持著技術和市場佔有率的絕對領先地位,但 Google(GOOGL-US) TPU 的全面商業化,正使輝達看似牢不可破的定價權開始鬆動。

據半導體行業研究機構 SemiAnalysis 的測算,輝達過去的最大客戶 Google,如今已成為其最大的對手。

SemiAnalysis 指出,OpenAI 僅憑「揚言採購 TPU」這一籌碼,就能迫使輝達生態鏈做出實質讓步,使其計算集群的總擁有成本(TCO)下降了約 30%。

隨著 Anthropic 高達 1GW 的 TPU 採購細節曝光,Google 已正式脫離「雲服務商」的標籤,轉型為一家直接向外部出售高性能晶片與系統的「商用晶片供應商」。

當頂級 AI 實驗室能夠利用 TPU 訓練出超越 GPT-4 的模型,且 Google 願意開放軟體生態並提供金融槓桿時,輝達高達 75% 的毛利率神話便不再牢不可破。

Google「主動出擊」:Anthropic 成關鍵引爆點

長期以來,Google 的 TPU 猶如其搜尋演算法,是深藏不露的內部核武器。然而,SemiAnalysis 獲取的供應鏈情報顯示,這一策略已發生根本性逆轉。

最直接的案例來自頂級大模型公司 Anthropic。Anthropic 已確認將部署超過 100 萬顆 TPU,這筆交易的結構極具破壞力,揭示了 Google 「混合銷售」的新模式:

直接銷售: 首批約 40 萬顆最新的 TPUv7 ,將不再透過雲端租賃,而是由長期合作夥伴博通 (AVGO-US) 直接出售給 Anthropic,價值約 100 億美元。博通在本次交易中從幕後走向台前,成為算力轉移的隱形贏家。

雲端租賃: 剩餘的 60 萬顆 TPUv7 將透過 Google 雲進行租賃,涉及高達 420 億美元的剩餘履約義務(RPO),直接支撐了 Google 雲近期積壓訂單的暴漲。

這代表,Google 不再吝嗇於將最先進的算力外售。除了 Anthropic,Meta(META-US) 、SSI、xAI 等頂級 AI 實驗室也出現在了潛在客戶名單中。

面對這一突如其來的攻勢,輝達罕見地展現出防禦姿態,不得不針對「循環經濟」(即投資初創公司購買自家晶片)的市場質疑發布長文辯解,凸顯輝達確實受到威脅。

成本為王:TPU 的碾壓性 TCO 優勢

客戶轉向 Google 的理由很純粹:在 AI 軍備競賽中,性能是入場券,但總擁有成本(TCO)決定生死。

SemiAnalysis 的模型數據顯示,Google TPUv7 在成本效率上對輝達構成碾壓優勢。

從 Google 內部視角看,TPUv7 伺服器的 TCO 比輝達 GB200 伺服器低約 44%。即便加上 Google 和博通的利潤,Anthropic 透過 GCP 使用 TPU 的 TCO,仍比購買 GB200 低約 30%。

這種成本優勢並非僅靠壓低晶片價格實現,更源於 Google 獨特的金融工程創新:透過雲端平台提供財務保障。

在 AI 基礎設施建設中,存在一個明顯的期限錯配:GPU 集群的經濟使用壽命通常只有 4 到 5 年,而數據中心場地的租賃合約則長達 15 年以上。

這種時間上的不匹配,使得 Fluidstack、TeraWulf 等新興算力服務商很難獲得融資。

針對這個問題,Google 利用一種「表外信貸支持」(IOU)機制來解決這一問題:如果中間商無法支付租金,Google 會介入提供財務擔保,確保算力資源得以穩定運作。

這項金融工具直接打通了加密貨幣礦工(擁有電力與場地)與 AI 算力需求之間的堵點,建立了一個低成本、獨立於輝達生態之外的基礎設施體系。

Google 殺手鐧:系統工程與光互連技術

如果說價格戰是戰術層面的對壘,那麼系統工程則是 Google 戰略層面的護城河。

雖然單顆 TPUv7 在理論峰值算力(FLOPs)上略遜於輝達 Blackwell,但 Google 透過極致的系統設計抹平了差距。

TPUv7 在記憶體頻寬和容量上已大幅縮小與輝達旗艦晶片的差距,採用了更務實的設計哲學:不追求不可持續的峰值頻率,而是透過更高的模型算力利用率(MFU)來提升實際產出。

更值得注意的是,Google 真正的殺手鐧是其獨步天下的光互連(ICI)技術。不同於輝達依賴昂貴的 NVLink 和 InfiniBand/Ethernet 交換機,Google 利用自研的光路交換機(OCS)和 3D Torus 拓撲結構,建構了名為 ICI 的片間互連網路。

這一架構允許單個 TPUv7 集群(Pod)擴展至驚人的 9,216 顆晶片,遠超輝達常見的 64 或 72 卡集群。OCS 允許透過軟體定義網路,動態重構拓撲結構。

這代表如果某部分晶片故障,網路可以在毫秒級繞過故障點,重新「切片」成完整的 3D 環面,極大地提升了集群的可用性,且光訊號在 OCS 中無需進行光電轉換,直接物理反射,大幅降低了功耗和延遲。

Gemini 3 和 Claude 4.5 Opus 這兩大全球最強模型均完全在 TPU 上完成預訓練,這本身就是對 TPU 系統處理「尖端模型預訓練」這一最高難度任務能力的終極背書。

Google 拆除最後的圍牆:軟體生態的改變

長期以來,TPU 在外部市場的普及一直受到軟體生態的限制。Google 堅持使用自家 JAX 語言,而大多數全球 AI 開發者則習慣於 PyTorch 與 CUDA。

然而,隨著商業利益的擴大,Google 開始調整策略。

SemiAnalysis 指出,Google 軟體團隊的績效指標(KPI)已經從「服務內部需求」轉向「開放與兼容外部生態」。官方明確表示,將全面支持 PyTorch Native 在 TPU 上的運行。

原本依賴低效率的 Lazy Tensor 轉換的方式,也被 XLA 編譯器直接對接 PyTorch Eager Execution 模式所取代。

這代表,像 Meta 這類以 PyTorch 為主的公司,可以幾乎無縫地將現有程式碼部署到 TPU 上。

同時,Google 也積極向 vLLM、SGLang 等開源推理框架貢獻程式碼,進一步打通 TPU 在開源 AI 生態中的兼容性。

這一策略轉變,正在逐步削弱輝達原本牢不可破的「CUDA 護城河」。隨著軟體與硬體的雙重進攻,矽谷 AI 算力霸主之爭才剛揭開序幕。

相關貼文

left arrow
right arrow