亞馬遜Trainium3晶片讓AI訓練成本降50%！宣布Trainium4將支援輝達NVLink Fusion

2025/12/03 16:40

Tag

亞馬遜 (AMZN-US) 網路服務公司（AWS）週二（2 日）在美國拉斯維加斯舉辦的年度盛會 AWS re:Invent 2025 上正式發布自研 Trainium3 晶片，以及搭載該晶片的 Trainium3 UltraServer 伺服器，還透露了 Trainium4 的研發進展。

根據 AWS 首席執行長 Matt Garman 介紹，Trainium3 的單晶片性能較上一代提升 4 倍，並採用台積電 (2330-TW) 3 奈米製程。

每顆晶片配備 144 GB HBM3E 記憶體、記憶體頻寬高達 4.9 TB/s，可提供 2.52 PFLOPS 的 FP8 計算能力。

Trainium3 UltraServer 最多可整合 144 顆 Trainium3 晶片在單一系統中，總計 20.7 TB HBM3E 記憶體、706 TB/s 記憶體頻寬，提供高達 362 FP8 PFLOPS 的算力。

相較於上一代 Trainium2 UltraServer，Trainium3 UltraServer 計算性能提升 4.4 倍，能源效率提高 4 倍，記憶體頻寬也幾乎翻近 4 倍。

在實際測試中，使用 OpenAI 的開源大模型 GPT-OSS，Trainium3 UltraServers 能讓客戶在每顆晶片上達到 3 倍吞吐量，提升推理回應速度 4 倍，使企業能在更小的基礎設施規模下應對高峰需求，有效降低訓練與推理成本，優化用戶體驗。

AWS 採用「垂直整合」方式打造 Trainium3 UltraServer，從晶片設計到軟體系統都自己控制、協同工作，讓整個 AI 訓練系統更高效。

其中 NeuronSwitch-v1 提供 2 倍 UltraServer 內部頻寬，增強型 Neuron Fabric 將晶片間通訊延遲降至 10 微秒以下，有效消除傳統分布式 AI 計算的通訊瓶頸。

這套高性能配置讓 Trainium3 非常適合應對新一代尖端 AI 任務，例如：

多家企業已開始使用 Trainium 系列晶片降低 AI 訓練成本。Anthropic、Decart、Metagenomi、NetoAI、Ricoh、Splash Music 等公司表示，使用 Trainium 可以將訓練與推理成本降低至原本的一半。

其中，Decart 在即時生成式影片方面的推理速度提升了 4 倍，而成本僅為傳統 GPU 的一半；AWS 自家服務 Amazon Bedrock 也已在生產環境中使用 Trainium3 提供 AI 訓練與推理服務。

對於需要超大規模運算的企業，還可以用 AWS 的 EC2 UltraCluster 3.0 將數千台 UltraServer 連接成一個巨型集群，總計可整合多達 100 萬顆 Trainium 晶片，規模是上一代的十倍。

如此強大的計算能力，使過去難以想像的任務成為可能，例如在兆級 token 資料集上訓練多模態模型，或同時為數百萬用戶提供即時 AI 推理服務。

亞馬遜下一代 AI 訓練晶片 Trainium4 進展

此外，AWS 也透露了下一代 AI 訓練晶片 Trainium4 的研發進展。

Trainium4 在多個方面都將帶來顯著性能提升，包括 FP4 計算性能至少提升六倍、FP8 計算性能提升三倍、記憶體帶寬提高四倍，加上持續的軟硬體優化，Trainium4 實際表現有望超越這些基準指標。

其中，FP8 性能提升三倍，被視為一次關鍵性飛躍。這將使模型訓練速度至少提高三倍，推理吞吐量也相應提升三倍，並且隨著軟體進一步優化，性能還有額外提升空間。

為了進一步增強單機擴展能力，Trainium4 將支援輝達 (NVDA-US) NVLink Fusion 高速互聯技術。

透過這項技術，Trainium4、AWS Graviton 處理器與 Elastic Fabric Adapter（EFA）可以在同一 MGX 機架內協同運作，為用戶提供兼具高性能與成本效益的 GPU 與 Trainium 混合機架級 AI 基礎設施。

這種整合將打造一個靈活且高效的平台，能夠應對未來對 AI 訓練與推理都極為嚴苛的需求。

相關行情