圖靈獎得主楊立昆給出AI模型的下一步！重砲批判LLM：無法通往AGI

2026/06/09 14:20

鉅亨網新聞中心

圖靈獎得主楊立昆給出AI模型的下一步！重砲批判LLM：無法通往AGI。(圖：Shutterstock)

Tag

AI 人工智慧楊立昆 Yann LeCun LLM 語言模型 AGI 世界模型未來

圖靈獎得主、著名 AI 科學家楊立昆（Yann LeCun）近日接受訪談時，對當前大型語言模型（LLM）的發展路線提出系統性批評。他明確指出，LLM 雖是極具價值的技術，卻並非通往通用人工智慧（AGI）的正確路徑，真正的突破有賴於能夠預測行動後果、在抽象空間中進行規劃的「世界模型」架構。

楊立昆並不否認 LLM 的實用價值。他本人也在日常中使用這類系統。但他強調，單靠「預測下一個詞」的機制，無法產生類人智慧，甚至難以達到許多動物所具備的基本理解與規劃能力。

他指出，LLM 的成功建立在語言本身的特殊性上：語言由有限的離散符號組成，訓練目標明確，回饋訊號清晰。然而，這正是問題所在，真實世界是連續的、高維的、充滿不確定性的，無法被切割成離散符號來處理。

例如，當有人問「洗車店在 100 公尺外，我應該走路去嗎？」，不少 LLM 會建議步行，理由是距離很近，但卻忽略了「車必須被開進洗車店」這個最基本的物理前提。

這並非一般所說的「幻覺」問題，而是模型根本缺乏對物理世界因果關係的內部建模能力。

兩個架構性缺口

楊立昆認為，LLM 存在兩個無法靠「打補丁」修復的根本缺陷。

第一，缺乏預測行動後果的能力。人類在過馬路前會自動模擬「現在走過去會有車嗎？等幾秒更安全嗎？」，這是一種內部的前瞻模擬機制。

但 LLM 沒有這樣的模擬器，它能說出「如果我這樣做可能會發生什麼」，但那是在複現訓練資料中的語言模式，而非真正在內部模擬世界的運作。

第二，缺乏基於搜尋的多步規劃能力。 LLM 的推理鏈（如 Chain-of-Thought）雖然有助於在語言空間找到更合理的表達，但本質上比較的是「哪段話聽起來更像一個好計畫」，而非「執行這個行動後，現實世界的狀態會如何改變」。兩者之間存在一道始終未被填上的鴻溝。

RAG、工具呼叫、反思鏈路等常見補強方案，楊立昆認為都是在外部疊加能力，並未改變模型學習和理解世界的根本方式。

VLA 路線「基本上已告失敗」

將 LLM 能力延伸至物理行動的視覺 - 語言 - 動作模型（VLA），曾被視為具身智慧的最有力解法。然而楊立昆在訪談中直言，VLA 現在基本上已「失敗」。

學術研究也印證了這一判斷。2025 年發表於軟體工程頂會 FSE 的研究「VLATest」，對七個代表性 VLA 模型進行系統測試後發現，這些模型缺乏實際部署所需的穩健性，光照條件改變、相機視角偏移，都能讓成功率大幅下滑。

更值得警惕的是，部分研究發現 VLA 模型在很大程度上「忽略了語言指令」，主要依賴視覺線索進行決策，本質上仍是模式匹配，而非真正建立起指令與動作之間的因果關聯。

楊立昆指出，VLA 繼承了 LLM 的所有不可靠性，卻要在物理世界中承擔後果。語言模型輸出錯誤，使用者可以重試；機器人輸出錯誤動作，後果往往不可撤回。

VLA 的資料效率問題是 LeCun 批評的核心之一：它們是用海量資料訓練的，需要大量資料來訓練這些系統進行模仿，這變得很昂貴，而且有點脆弱。換句話說，想讓機器人解決的每個任務，需要收集大量資料。

這與 LLM 形成了鮮明對比。 LLM 的預訓練資料具有普遍的遷移性，在網路文字上學到的語言能力，可以被微調到無數下游任務。

但 VLA 的模仿學習資料沒有這種遷移性。每個新任務、每個新環境、每個新操作對象，往往需要重新收集演示資料。擴展到新任務時，成本不是次線性的，而是線性甚至超線性成長。

JEPA：在抽象空間中預測，而非在像素中重建

楊立昆提出的替代路徑是聯合嵌入預測架構（JEPA）。

其核心哲學可以用一個直覺例子說明：當你推一個裝滿水的無蓋瓶子，你知道它可能會倒，但無法預測它倒向哪個方向，更不可能在像素層級預測瓶身的每個光影變化。

人類的直覺物理運作在一個「去噪後的抽象層」，知道大概會發生什麼，但不需要模擬每個分子的運動。

JEPA 正是基於這個道理。它不要求模型重建或生成每個像素，而是在語義表征空間中預測「未來狀態的抽象表示」。這讓模型能夠聚焦於真正與決策相關的資訊，而非浪費運算能力在紋理、光照等無關細節上。

2026 年 3 月發表的論文「LeWorldModel」是目前 JEPA 路線最具代表性的工程驗證。這個僅有 1,500 萬參數的小型模型，在 Push-T 等控制任務上成功率達 96%，且規劃速度較現有方法最高提升近 50 倍。

更重要的是，整個訓練過程從原始像素開始、無需龐大預訓練，且損失函數穩定收斂，解決了先前 JEPA 架構難以穩定訓練的問題。

LLM 本質上不安全

楊立昆對 LLM 的安全性做出了強烈的定性判斷：「大型語言模型本質上是不安全的。我認為它們無法變得可靠和安全。」

他的理由有二。其一，幻覺問題無法根除。自回歸生成架構中，模型永遠只是在預測「可能的下一個詞」，沒有任何內建機制驗證輸出是否符合事實。

其二，當 LLM 被賦予 AI 代理能力時，無法保證它不會採取後果難以預料的行動。他舉例，已有程式碼智慧體誤刪硬碟的真實案例，而程式設計領域還是 LLM 相對最可靠的場域，因為程式碼至少可以事後驗證。

現有的 RLHF、憲法 AI 等對齊方案，楊立昆認為都是「事後施加的軟約束」，本質上只是降低危險輸出的發生機率，無法提供架構層面的硬性保證。訓練分布之外的輸入，始終可能觸發系統的危險行為。

目標驅動 AI：讓安全成為系統的內生屬性

楊立昆提出的替代方向是「目標驅動 AI」。這個架構的核心轉變在於：系統的行為不再由「預測下一個 token」驅動，而是由「尋找能滿足目標與安全約束的行動序列」驅動。

在這個框架下，系統在執行任何行動前，會先用世界模型模擬各種可能行動序列的後果，排除所有違反安全約束的選項，再選擇最接近目標的路徑。

安全約束被內嵌為目標函數的一部分，系統「從構造上就無法違反」這些限制，而非依賴外部過濾或事後糾正。

楊立昆坦承這個架構仍有失敗模式：代價函數可能設計有誤，世界模型的預測可能不夠準確。但他強調，這些失敗是「可調試、可驗證的」，與 LLM 幻覺的黑箱性質截然不同。

未來圖景：三層分工，而非二選一

楊立昆並不主張用世界模型「取代」LLM，而是為兩者劃定清晰的分工邊界。

在他描繪的三層架構中，LLM 作為「語言接口層」，負責自然語言的理解與生成、知識調用，以及在語言即推理基底的領域（程式碼、數學、文書）中直接完成任務；世界模型層負責在抽象表征空間中建模物理世界、預測行動後果、進行多步規劃；目標驅動決策層則維護全局的代價函數與安全約束，確保系統行為從架構上不可越界。

他以認知科學的「雙系統」理論作類比：LLM 對應系統一（快速、直覺、模式匹配），世界模型對應系統二（緩慢、深思、後果模擬）。

人類智慧的關鍵特徵之一，正是能在兩種模式間按需切換，而當前的 LLM 只有系統一。

對於範式轉變的時間點，楊立昆給出了罕見的具體預測：「到 2027 年初，對於需要範式轉變的認識，將對所有人變得不言而喻。」

不過，他也同時強調，「這不意味著到那時我們就會有解決方案」，認知的轉變與技術方案的成熟，是兩件截然不同的事。

圖靈獎得主楊立昆給出AI模型的下一步！重砲批判LLM：無法通往AGI

鉅亨網新聞中心

兩個架構性缺口

VLA 路線「基本上已告失敗」

JEPA：在抽象空間中預測，而非在像素中重建

LLM 本質上不安全

目標驅動 AI：讓安全成為系統的內生屬性

未來圖景：三層分工，而非二選一

鉅亨贏指標
鉅亨贏指標是鉅亨網APP的訂閱服務，提供78種選股策略，幫助投資人決策個股短線多空操作。

相關貼文

相關新聞

〈財報前瞻〉庫克最後一役！蘋果上季營收估增15.5% 料創5年同期最佳

高通拿下BMW長期晶片合約！雙方合作橫跨未來十年

印度成晶片巨頭新戰場！Marvell砸2.5億美元加碼員工人數將翻倍

川普政府封殺中國新型機器人防堵AI供應鏈風險

圖靈獎得主楊立昆給出AI模型的下一步！重砲批判LLM：無法通往AGI

鉅亨網新聞中心

兩個架構性缺口

VLA 路線「基本上已告失敗」

JEPA：在抽象空間中預測，而非在像素中重建

LLM 本質上不安全

目標驅動 AI：讓安全成為系統的內生屬性

未來圖景：三層分工，而非二選一

鉅亨贏指標鉅亨贏指標是鉅亨網APP的訂閱服務，提供78種選股策略，幫助投資人決策個股短線多空操作。

相關貼文

相關新聞

〈財報前瞻〉庫克最後一役！蘋果上季營收估增15.5% 料創5年同期最佳

高通拿下BMW長期晶片合約！雙方合作橫跨未來十年

印度成晶片巨頭新戰場！Marvell砸2.5億美元加碼 員工人數將翻倍

川普政府封殺中國新型機器人 防堵AI供應鏈風險

鉅亨贏指標
鉅亨贏指標是鉅亨網APP的訂閱服務，提供78種選股策略，幫助投資人決策個股短線多空操作。

印度成晶片巨頭新戰場！Marvell砸2.5億美元加碼員工人數將翻倍

川普政府封殺中國新型機器人防堵AI供應鏈風險