1

熱搜:

熱門行情

最近搜尋

全部刪除

研調:輝達迎戰ASIC 採多元產品分攻AI訓練、推理市場

鉅亨網記者魏志豪 台北
NVIDIA示意圖。(圖:REUTERS/TPG)
NVIDIA示意圖。(圖:REUTERS/TPG)

TrendForce 今 (18) 日指出,輝達 (NVDA-US) 於 GTC 2026 大會改為著重各領域的 AI 推理應用落地,有別於以往專注雲端 AI 訓練市場。其推動 GPU、CPU 以及 LPU 等多元產品軸線分攻 AI 訓練、AI 推理需求,並藉由機櫃整合方案帶動供應鏈成長。

TrendForce 表示,隨著 Google、Amazon 等 CSP 的自製晶片需求擴大,預估 ASIC AI 伺服器占整體 AI 伺服器的出貨比例將從 2026 年的 27.8%,上升至 2030 年的近 40%。

為鞏固在 AI 市場的領導地位,輝達採取的其中一項策略為積極推動 GB300、VR200 等整合 CPU、GPU 的整櫃式方案,強調可擴展至 AI 推理應用。本次在 GTC 發表的 Vera Rubin 被定義為高度垂直整合的完整系統,涵蓋七款晶片和五款機櫃。

觀察 Rubin 供應鏈進度,預計 2026 年第二季記憶體原廠可提供 HBM4 給 Rubin GPU 搭載使用,有助輝達於第三季前後陸續出貨 Rubin 晶片。GB300、VR200 Rack 系統則分別於 2025 年第四季取代 GB200 成為出貨主力,預估至 2026 年出貨占比將達近 80%,而 VR200 Rack 約於 2026 年第三季底可望逐步展開出貨量能,後續發展仍須視 ODM 實際進度而定。

另外,AI 從生成跨入代理模型時代,在生成 Token 的解碼 (Decode) 階段面臨嚴重的延遲與記憶體頻寬瓶頸。為此,輝達整合 Groq 團隊技術,推出專為低延遲推理設計的 Groq 3 LPU,單顆內建 500MB SRAM、整機櫃可達 128GB。

然而,LPU 本身的記憶體容量無法容納 Vera Rubin 等級的龐大參數與 KV Cache。輝達因此於本次 GTC 提出「解耦合推理 (Disaggregated Inference)」架構,透過名為 Dynamo 的 AI 工廠作業系統,將推理流水線一分為二:處理代理型 AI 時,須進行大量數學運算並儲存龐大 KV Cache 的 Pre-fill、Attention 運算階段,交由具備極高吞吐量與巨量記憶體的 Vera Rubin 執行。

而受限於頻寬且對延遲極度敏感的解碼與 Token 生成階段,則直接卸載至擴充了巨量記憶體的 LPU 機櫃上。 

在供應鏈進度上,第三代 Groq LP30 由 Samsung 代工,已進入全面量產階段,預計於 2026 年下半年正式出貨,未來更規畫於下一代 Feynman 架構中推出效能更高的 LP40 晶片。

相關行情

相關貼文

left arrow
right arrow