輝達CUDA根本不是護城河?Google TPU設計者揭露AI的終局

當全球目光聚焦於晶片巨頭輝達所建構的算力帝國之際,一場由極速晶片新創公司 Groq 所點燃的顛覆性革命正在悄然上演。其創辦人指出,輝達 (NVDA-US) 的 CUDA 並非人工智慧(AI)的關鍵,關鍵在於算力與能源。
曾主導設計 Google(GOOGL-US) 第一代 TPU 的 Groq 創辦人 Jonathan Ross 在最新訪談中拋出石破天驚的論斷:AI 的終局不是模型,而是算力;算力的終局,則是能源。
他指出,在這場決定人類未來的科技競賽中,輝達的王座並非牢不可破,而真正的勝利者將屬於那些能突破物理極限、掌握極致速度與能源基礎設施的創新者。
「聰明錢」的賭注:AI 泡沫論休矣
面對外界對 AI 產業的「泡沫論」,Ross 的觀點犀利而直接:不必糾結於泡沫,只需觀察「聰明錢」的實際行動。
他指出,包括 Google、微軟 (MSFT-US) 、亞馬遜 (AMZN-US) 等科技巨頭都正「像醉酒的水手一樣」瘋狂投入資源。其中,微軟甚至寧願犧牲 Azure 的租賃收入,也要將寶貴的 GPU 留給內部使用,這證明了 AI 應用的真實價值與對巨頭生存的關鍵性。
Ross 分享了一個發人深省的細節:沒有一位頂級投資人敢保證 10 年後 AI 無法取代自己的工作。
對於科技巨頭而言,今日不惜一切代價的投入,正是為了確保 10 年後不被徹底踢出牌桌。
Ross 反覆強調,市場對算力的需求是「永不滿足」的。
他驚人地斷言:「我敢打賭,如果 OpenAI 或 Anthropic 今天能獲得雙倍的推理算力,一個月內,他們的收入幾乎會翻倍。」
值得注意的是,頂尖 AI 公司正被算力「卡脖子」,例如 Anthropic 因算力不足而對用戶實施速率限制,OpenAI 為控制成本而不得不犧牲部分響應速度。
如同 Google 曾證明的,每提速 100 毫秒就能帶來 8% 的轉化提升,極速的 AI 響應是決定用戶黏性和轉化率的關鍵。
在所有提升 AI 產品品質的途徑中,提升算力是最直接、最可預測且最有效的「旋鈕」。
輝達帝國的裂痕:卡在「2 年之約」
儘管 Ross 肯定輝達的價值,甚至預測其市值在 5 年內可能達到 10 兆美元,但他同時指出了這個帝國的致命弱點:供應鏈瓶頸。
Ross 直言,輝達的 CUDA 生態鎖定在推理市場上並非不可撼動,因為真正的「阿基里斯之腱」在於供應鏈。
他指出,限制產量的不是 GPU 晶片本身,而是 HBM(高頻寬記憶體)等關鍵元件的有限供應。
與此同時,交付速度也已經成為核心競爭力。然而,目前從下訂單到拿到輝達的 GPU,需要等待 2 年以上。
Ross 強調,在模型更新以月為單位的 AI 時代,6 個月與 2 年的交付週期是生死區別。
交付速度已成為比晶片性能更重要的競爭力,而這正是 Groq 等挑戰者的巨大機會。
AI 的物理定律:沒有能源,就沒有王權
與此同時,Ross 也慎重警告稱:「控制算力的國家將控制 AI,而沒有能源就不可能有算力。」
他還認為,若不迅速行動,歐洲經濟恐淪為「旅遊經濟」,僅供人欣賞古老建築。問題不在於技術或資源匱乏,而在於繁瑣的官僚主義和對風險的恐懼,例如核電站許可證成本遠超建造成本。
Ross 呼籲政府應「鬆綁」,削減繁瑣的審批流程,讓有需求的科技巨頭自行投資建設能源設施,並解放挪威等國巨大的可再生能源潛力。
AI 帶來的不是失業潮,而是勞動力短缺
關於 AI 對就業的未來,Ross 再次顛覆傳統認知,預測社會將面臨的不是失業潮,而是勞動力短缺。
三大社會變革:
- 大規模通縮: AI 將極大提升效率,使所有商品和服務成本下降。
- 主動「退出」工作: 生活成本降低,人們不再需要拼命工作,將選擇更少工時或更早退休。
- 創造全新產業: 誕生今天無法想像的新職業。
此外,Vibe Coding 將是未來的「讀寫能力」。 Ross 預言未來的程式設計將不再是少數專家的技能,透過與 AI 對話的「Vibe Coding」,創造工具和解決問題的能力將成為人人都需具備的基礎素養。
Ross 最後總結,大型語言模型(LLM)是我們思想的「望遠鏡」,它正揭示一個比我們想像中更廣闊、更美麗的智慧世界。
面對這片由算力與能源構建的新大陸,只有看清底層邏輯的人,才能在機遇與挑戰並存的時代中最終勝出。
Groq 公司背景
Groq 被譽為 AI 推理領域最兇猛的「F1 賽車」,其核心產品是一種全新的晶片架構「語言處理單元」(LPU)。
Groq 的 LPU 專為運行大型語言模型(LLM)的「推理」環節而生,其唯一使命是提供地球上最快的速度和最低的延遲。
傳統 GPU 類似於強大的「專案經理」,儘管計算核心眾多,但動態調度和協調會產生延遲。
LPU 則像一條預先設定好的「精密流水線」,數據處理路徑被精確規劃,消除了所有不確定性,實現了驚人的、可預測的極速。
Groq 的雲端平台曾公開展示以每秒超過 500 個 Token 的速度運行開源大模型,速度比當時業界頂尖水準快 5 到 10 倍,幾乎達到 AI 對話的「零等待」境界。