當AI學會「看世界」會發生什麼?「AI教母」李飛飛談模型的下一個十年

「AI 教母」、ImageNet 奠基人李飛飛近日在個人 Substack 發表長文《From Words to Worlds》,引起全球 AI 圈廣泛關注。李飛飛認為,AI 的下一步不在語言,而在世界。她並將這項能力稱為「空間智慧」(Spatial Intelligence)。
李飛飛文章被譽為「AI 下個十年的路線宣言」,並提出一個核心觀點:今天的 AI 能言善辯、知識淵博,但缺乏對世界的真實感知,它們只是「黑暗中的文字匠人」。
李飛飛在後續 Podcast 中進一步解釋,過去十多年,她依靠 ImageNet 幫助機器「看懂圖像」,而現在,她和團隊在新創 World Labs 推動讓 AI 能在 3D 環境中感知、預測和行動的技術。
當 AI 真正能「看懂世界」,它不再只是回答問題或生成文字,而能在家庭、工廠、醫院、城市道路中自主導航、判斷風險和規劃動作。
這將不僅改變演算法,更可能重塑工作方式、城市基礎設施以及職業生態。
語言模型的局限
李飛飛指出,目前的大模型雖然在語言和圖像生成上表現出色,但一旦面對真實世界,就暴露出根本性缺點。
她以一個簡單測試為例:讓模型觀看一段辦公室影片,數一數椅子的數量,這對幼兒來說毫無難度,但對 AI 卻是一個挑戰。
其中的問題就在於,現有模型缺乏對物體的距離、方向、位置等空間感知,也無法理解物理變化,只能用文字描述而無法真正行動。
李飛飛認為,想要突破這一限制,單純增加模型參數並不足以解決問題,AI 必須學會「看懂世界」,這也就是她提出的「空間智慧」概念。
她指出,語言模型處理的是線性資訊,一句話接著一句話的「平面推理」,而空間智慧則涉及動作、位置、時間、因果關係交織的立體認知。
世界模型與 Marble:AI 能動的關鍵
為此,李飛飛提出了「世界模型」(World Model)的概念。與語言模型不同,世界模型能讓 AI 在生成的 3D 世界中互動、行走、操作物品,並進行推理。
舉例來說,給模型一個「臥室」的提示,它不僅能生成圖像,而是能創造一個可探索、可互動的立體空間;在指令「把水壺從桌子移到台子」下,模型也能理解物體位置、移動過程及最終擺放位置。
在此基礎上,李飛飛的團隊於 2024 年創立 World Labs,並在不到一年時間推出原型產品 Marble。
Marble 是全球首個能生成真正 3D 世界的生成模型,用戶只需輸入文字或圖片,就能創造可互動、可沉浸式體驗的立體場景,例如廢棄工廠、月球基地或山谷木屋。
與現有影片生成技術不同,Marble 不只是讓人「觀看世界」,而是可以「走進世界」,直接與場景互動。
李飛飛指出:「影片只能看,但 Marble 可以動、可以逛、可以互動。」AI 不只是輸出影像,而是能自己組織一個「真實世界」。
這項技術已在創作領域初步落地,李飛飛透露,與索尼 (SONY-US) 合作拍攝影片時,使用 Marble 後製作時間縮短了四十倍。
而到了未來,這套技術有望讓個人創作者、VR 遊戲開發者、動畫團隊,以及教育與科研工作者,都能以更低成本創造沉浸式世界。
空間智慧將改變創作與工作
值得注意的是,空間智慧的影響不僅在創作領域,也將深刻影響機器人、科學研究、醫療和教育。
在創作領域,創作者不再需要從草圖與建模開始,而是能用一句話生成一個世界,並走進世界開始創作,不但大幅降低了創作門檻,也改變了敘事方式。
在機器人訓練中,傳統方法依賴大量現實場景數據和人工規則,而世界模型可以生成多樣化虛擬環境,讓機器人自主學習,降低成本並提高效率。
在醫療領域,沉浸式 3D 場景可用於影像診斷或心理學研究,幫助專業人員更好理解病患反應。
在教育中,學生更是可以走進細胞、火山或化學反應的模擬世界,將抽象知識具象化,提高理解深度。
李飛飛認為,AI 的目標不是取代人類,而是增強人類能力。語言只是智慧的一部分,而空間智慧才能讓 AI 在世界中真正行動和創造,進而改變我們的生活和工作方式。