輝達發表GB300 SuperPOD架構白皮書 1SU功率超1.2MW

輝達 (Nvidia)(NVDA-US) 發布《DGX SuperPOD GB300 參考架構》,這次架構白皮書其實可以看作是它面向「AI 工廠」時代的重磅技術藍圖。簡單來說,就是輝達正式公布了自家 AI 超算系統的完整結構,讓外部企業和機構能直接照著搭建一座屬於自己的 AI 工廠。
官方說這是其內部系統的「物理孿生體」——也就是說,你買的、部署的 DGX SuperPOD,跟輝達自己在訓練大模型的系統是一模一樣的。這點非常關鍵,因為這意味著所有的軟體、驅動、網路、儲存方案都已經被輝達內部驗證過,穩定性、相容性和效能都能保證,部署周期也會比以往縮短很多。
這代 SuperPOD 的核心是 DGX GB300 系統,搭載 Grace CPU 和 Blackwell Ultra GPU(B300),是專為 AI 訓練和推理打造的高密度運算平台。輝達用一種叫做 Scalable Unit(SU)的模組化設計來組成整套系統。
一個 SU 包含 8 個 DGX GB300 機架,每個機架裡面有 72 顆 GPU,總共 576 顆 GPU。如此一來,部署方式就變得非常靈活──你可以先上一個 SU,後續再往上疊。整個架構最大可以擴展到 128 個機架,也就是 9216 顆 GPU,單一 SU 的功率就已經高達 1.2MW,功耗和熱負載都非常驚人。輝達也明確要求,資料中心至少要達到 Tier 3 級標準,具備並行維護、無單點故障的能力。冷卻方式上,GB300 採用了混合冷卻結構:GPU 和 CPU 部分是直液冷,其他元件還是風冷,這樣既能控制能耗,又能降低維護難度。
DGX GB300,每個托盤有兩顆 GB300,每顆 Superchip 由兩顆 B300 GPU 和一顆 Grace CPU 組成,中間透過 NVLink-C2C 互聯,CPU 和 GPU 共享記憶體、直接通訊。這樣的組合讓大模型的訓練速度能提升幾個量級。每個托盤配有高速網卡:4 個 ConnectX-8 用於 InfiniBand 互聯,還有一張 BlueField-3 DPU 用於儲存與管理網路。儲存方面,每個托盤都有 NVMe SSD 作為本地快取和系統碟,用於高速資料存取。
在互聯部分,輝達用了自家的 NVLink 5 技術。每個機架配備 9 個 NVLink 交換模組,用於連接機架內的 72 顆 GPU。每顆 B300 GPU 有 18 條 NVL5 鏈路,頻寬能達到 1.8TB/s。這意味著所有 GPU 之間幾乎是全互聯的,延遲極低,非常適合大模型訓練時需要頻繁參數同步的場景。供電部分也升級了,每個電源架能輸出 33kW,一個機架裡有 8 組,具備冗餘設計,還能透過儲能模組緩衝峰值電流,減少資料中心配電壓力。
網路是這份架構文件中篇幅最長、設計最複雜的部分。輝達把整個系統的網路分成了四層:GPU 之間的 NVLink 互聯、運算網路(InfiniBand)、儲存網路(乙太網路)及獨立的管理網路。計算網路用的是 Quantum-X800 InfiniBand 交換機,單向頻寬 800Gbps,支援 RDMA 及各種集合通訊加速功能。儲存網路以 Spectrum-4 以太交換機,透過 RoCEv2 協定存取高效能存儲,獨立於運算網路運行,確保訓練與資料存取互不干擾。管理網路則是完全獨立的 Out-of-Band 結構,用來連接 BMC、NVSwitch 控制器、機架電源和監控設備,確保硬體層面的管理不受業務網路幹擾。這種多層結構讓系統既快又穩,還能在安全性和可維護性上做到隔離。
儲存部分輝達分成了兩層:高效能儲存(HPS)和使用者儲存(User Storage)。HPS 負責訓練和推理的主資料流,要求非常高——要支援 NVMe、RoCEv2、POSIX 語意、多執行緒並發讀寫,還要能在節點失效時保持高可用。使用者儲存則更偏向系統管理用途,例如日誌、設定檔、共用目錄等,通常用 NFS 接取。文件裡給了效能指標:單一 SU 在標準配置下讀寫吞吐分別是 90GB/s 和 45GB/s,增強配置可以到 280GB/s 和 140GB/s;如果擴展到 4 個 SU,讀寫效能分別能達到 1.12TB/s 和 560GB/s。這說明 SuperPOD 的儲存效能是線性可擴充的,愈大規模愈能發揮優勢。
在軟體層面,輝達提出了一個非常完整的管理系統:Mission Control + Run:AI + Base Command Manager。 Mission Control 是整個系統的中樞,負責運作、監控、排程和自癒。它能自動偵測硬體或節點異常,觸發任務遷移,甚至自動恢復訓練任務到上一個 checkpoint,避免重訓。Run:AI 負責資源編排和多租戶調度,例如自動分配 GPU、動態擴容訓練作業。 Base Command Manager 則提供底層管理和設定介面。 Mission Control 還能與資料中心的樓宇管理系統(BMS)打通,實現溫度、能耗、冷卻流量等指標的即時監控。整個軟體堆疊支援 SLURM 和 Kubernetes 兩種主流調度框架,對 AI 訓練、推理、微服務部署都能相容。
值得注意的是,輝達也透露了它對液冷的態度:在 GB300 時代,液冷已經不再是可選項,而是標配。每個 SU 功率高達 1.2MW,傳統風冷根本無法支撐這種熱密度。輝達不僅提供了硬體冷卻方案,還在 Mission Control 層整合了液冷管理和警報機制,可即時監控冷卻環路溫度、水流速、壓力等參數。換句話說,從 GB300 開始,液冷已經成為 AI 伺服器的基礎設施。
整體來看,這份文件不僅僅是一份技術規範,更像是輝達為整個 AI 基礎設施生態畫的一張藍圖。DGX SuperPOD GB300 代表了 AI 工廠的標準形態:高密度算力、高速互聯、分層儲存、全端自動化管理,再加上液冷和能源優化,形成一個閉環。
輝達的思路很清晰:AI 運算將走向工業化生產,而 DGX SuperPOD 就是 AI 的「生產線」,把運算、儲存、網路、冷卻、運維全部標準化、模組化,讓 AI 工廠可以像搭積木一樣複製。未來無論是雲端廠商、研究機構或大型企業,基本上都可以在這個架構上建構自己的 AI 算力中心。