專家:Groq雖然快 現階段仍難以取代輝達的GPU
Groq 一夜爆紅,憑藉其響應速度和可能不需要 GPU 的新技術,在社群媒體引發轟動。不過有專家稱,現階段想用它取代輝達 (NVDA-US) 的 GPU 仍然太貴,並不划算。
據報導,Groq 背後的團隊爲大型語言模型 (LLM) 開發了自己的定制專用整合電路 (ASIC) 晶片,使其每秒可以產生大約 500 個 tokens。相較之下,公開版本的 ChatGPT-3.5 每秒可以產生大約 40 個 tokens。
這一模型的開發商 Groq Inc 表示,他們採用語言處理單元 (LPU) 運行模型,而不是通常用於運行 AI 模型的稀缺且昂貴的圖形處理單元 (GPU)。
根據 ArtificialAnalysis.ai 數據,Groq LPU 實現了每秒 241 個 token 的吞吐量,大大超過了其他託管提供者的能力。 這種性能水準是競爭解決方案速度的兩倍,並且有可能爲跨各個領域的大型語言模型開闢新的可能性。
Groq 的內部基準進一步強調了這一成就,聲稱達到每秒 300 個 token,這是傳統解決方案和現有供應商尚未接近的速度。GroqCard 加速器是這項創新的核心,售價爲 19948 美元。
從本質上講,這兩個組件在 AI 和 ML 計算的不同方面都表現出色,Groq LPU 卡在高速運行 LLMS 方面極具競爭力,而 A100 在其他方面領先。 Groq 將 LPU 定位爲運行 LLM 的工具,而不是原始計算或微調模型。
媒體報導形容,GPU 就像一個速度很快的工人,但也需要使用高速傳送系統 (例如 HBM),而 Groq 的 LPU 就像一個高效組織任務的工人,他們不需要那麼快地交付文件,所以用了一張就放在他們身邊的更小的桌子 (如 SRAM),所以可以更快立即獲得所需要的工具。
從本質上講,這兩個組件在 AI 和 ML 計算的不同方面都表現出色,Groq LPU 卡在高速運行 LLMS 方面極具競爭力,而 A100 在其他方面領先。Groq 將 LPU 定位爲運行 LLM 的工具,而不是原始計算或微調模型。
不過,目前告別阿里進軍 AI 的賈揚清在計算後,於 X 平台發文稱, Grop 卡並不划算。因爲 Groq 過少的內存容量 (230MB),在運行 Llama-2 70b 模型時,需要 305 張 Groq 卡才足夠,而用 H100 則只需要 8 張卡。 從目前的價格來看,這意味著在同等吞吐量下,Groq 的硬體成本是 H100 的 40 倍,能耗成本是 10 倍。
也有用戶表示,Groq 的 LPU 可以爲 GPU 提供「巨大的改進」,以滿足未來人工智慧應用的需求,並表示它也可能成爲人工智慧「高性能硬體」的良好替代品。
在此背景下,業界主要的人工智慧開發商正在尋求開發內部晶片,以避免過度依賴輝達。