不讓Nvidia晶片專美 三大晶片巨頭出招挑戰
Nvidia(NVDA-US) 憑藉其 GPU 的領先優勢,過去幾年炙手可熱,更乘著 ChatGPT 熱潮,公司的市值從今年年初至今更是大漲了 93.6%,不過,近日博通 (AVGO-US)、微軟 (MSFT-US)、Google(GOOGL-US) 都大動作出手,希望挑戰其獨霸地位。
博通發布晶片新品
博通周二 (18 日) 發布 Jericho 系列最新的產品 Jericho3-AI。在他們看來,這是比輝達 (Nvidia)Infiniband 更適合 AI 的一個新選擇。
據博通所說,大公司 (甚至 NVIDIA) 都認為 AI 工作負載會受到網路延遲和頻寬的限制,而 Jericho3-AI 的存在則旨在減少 AI 訓練期間花在網路上的時間。其結構的主要特性是負載平衡以保持鏈路不擁塞、結構調度、零影響容錯移轉以及具有高乙太網基數 (radix)。
博通強調,AI 工作負載具有獨特的特徵,例如少量的大型、長期流,所有這些都在 AI 計算週期完成後同時開始。Jericho3-AI 結構為這些工作負載提供最高性能,具有專為 AI 工作負載設計的獨特功能。
博通指出,「Jericho3-AI 結構的一個獨特之處在於它提供了最高的性能,同時還實現了最低的擁有權總成本。這是通過長距離 SerDes、分散式緩衝和高級遙測等屬性實現的,所有這些都使用行業標準乙太網提供。這些因素為最大的硬體和軟體提供商生態系統提供了網路架構和部署選項的高度靈活性。」
微軟自研晶片最新進展
據 The Information 的報導,微軟正在開發自己的代號為「Athena」的人工智慧晶片,該晶片將為 ChatGPT 等人工智慧聊天機器人背後的技術提供支援。
根據這一報導,這些晶片將用於訓練大型語言模型和支援推理—這兩者都是生成 AI 所需要的,例如 ChatGPT 中使用的 AI 來處理大量資料、識別模式並創建新的輸出來模仿人類對話。
報導稱,微軟希望該晶片的性能優於目前從其他供應商處購買的晶片,從而為其昂貴的 AI 工作節省時間和金錢。
目前尚不清楚微軟是否會向其 Azure 雲客戶提供這些晶片,但據報導,這家軟體製造商計畫最早於明年在微軟和 OpenAI 內部更廣泛地提供其 AI 晶片。據報導,該晶片的初始版本計畫使用台積電的 5 奈納米工藝,不過作為該項目的一部分,可能會有多代晶片,因為微軟已經制定了包括多個後代晶片的路線圖。
近年來,微軟加大了處理器工程師的招聘力度,今年年初,微軟更是宣佈收購了一家名為 Fungible 的 DPU 晶片公司。
微軟 Azure 核心部門的 CVP Girish Bablani 在一篇博文中寫道:「Fungible 的技術有助於實現具有可靠性和安全性的高性能、可擴展、分解、橫向擴展的資料中心基礎設施」。
Google 推出 TPU 第四代
近日,Google 對其 TPUv4,及其基於這個晶片的打造的超級計算系統,公布更進一步資訊。
據他們在一篇文章中指出,得益於互連技術和領域特定加速器 (DSA) 方面的關鍵創新,Google 雲 TPU v4 在擴展 ML 系統性能方面比 TPU v3 有了近 10 倍的飛躍;與當代 ML DSA 相比,提高能源效率約 2-3 倍。
在與 Nvidia A100 相比時,Google 表示,TPU v4 比前者快 1.2-1.7 倍,功耗低 1.3-1.9 倍。在與 Graphcore 的 IPU BOW 相比,Google 表示,其晶片也擁有領先的優勢。
基於這個晶片,Google 打造了一個擁有 4,096 個張量處理單元 (TPU) 的 TPU v4 超級電腦。
Google 表示,這些晶片由內部開發的行業領先的光電路開關 (OCS) 互連,OCS 互連硬體允許 Google 的 4K TPU 節點超級電腦與 1,000 個 CPU 主機一起運行,這些主機偶爾 (0.1-1.0% 的時間) 不可用而不會引起問題。
據 Google 稱,OCS 動態重新配置其互連拓撲,以提高規模、可用性、利用率、模組化、部署、安全性、功率和性能。與 Infiniband 相比,OCS 和底層光學元件更便宜、功耗更低且速度更快,不到 TPU v4 系統成本的 5% 和系統功耗的 5% 以下。