美國智庫報告揭示AI算法進步關鍵:數據與效率成未來兩大引擎

由 Carter C. Price、Brien Alkire 和 Mohammad Ahmadi 撰寫的蘭德公司 (RAND) 最新研究報告《人工智慧算法進展:進步調查與近期未來預測》於 2025 年初發布,深入探討了人工智慧 (AI) 算法改進的現狀與未來趨勢,特別是其對大型語言模型 (LLMs) 能力的影響。
報告指出,隨著 OpenAI 的 ChatGPT、Anthropic AI 的 Claude、Meta 的 Llama 等商業產品的進步,AI 已擴大公共討論,而其能力的發展也引發了對安全隱患的擔憂。
算法改進的本質與衡量
報告定義算法改進為在特定任務上帶來更佳性能表現或減少所需工作及相關資源,或兩者兼具。這類改進可從多個維度衡量,例如「強度邊際」,關注以更少輸入 (如訓練數據、計算資源) 達成更好或相同性能,本質上是提高效率。報告的重點在於訓練階段的強度邊際改進,因訓練所需的前期成本是未來模型發展的潛在障礙。
歷史研究顯示,算法進步對 AI 性能提升貢獻良多。尤其是在 LLMs 領域,2012 年至 2023 年間,預訓練後的模型性能提升中有 5% 至 40% 歸功於算法改進,其中以 Transformer 架構的引入和縮放定律最為關鍵。然而,對於算法進步的確切速度與方向,目前學術界並無明確共識。
潛在影響巨大的算法改進渠道
研究人員藉由回顧數值分析、運籌學和電腦科學領域的算法,識別出幾個潛在的算法改進渠道。其中,有兩個渠道被認為具有「高影響潛力」:
1. 數據合成與優化 (Data Tailoring): 透過生成合成數據或修剪現有數據,產出更適合訓練 AI 的數據集。研究表明,經選擇性修剪 20% 至 99% 的數據集仍能保持模型的最小性能損失。合成數據也能用於特定窄領域任務,例如 Google DeepMind 利用合成數據微調的模型在國際數學奧林匹亞競賽的幾何問題上取得了銀牌成績。報告指出,若能開發出通用的數據修剪方法,可能將訓練成本降至現有擴展定律的 1% 或更少。若能產生通用的合成數據工具,則可能帶來對各類複雜知識任務都高度有效的模型。
2. 提高數據效率的改進算法 (Increasing Data Efficiency): 開發比轉換計算成本更低 (如 Mamba) 或每次迭代更有效 (如 Kolmogorov-Arnold Networks) 的新算法。這些替代算法若能有效擴展,可能大幅降低模型訓練成本,甚至達到一個數量級或更多。然而,轉換架構因現有硬體和系統已為其優化而存在較大的先有優勢。
DeepSeek-V3:算法進步的近期例證
值得注意的是,在報告撰寫完成後發布的 DeepSeek-V3 模型被報告列為算法改進的一個重要實例。該模型據稱在訓練計算需求更少的情況下,性能可與領先的閉源模型媲美,並優於其他開源模型。DeepSeek-V3 採用了專家混合 (MoE) 架構,並透過多頭潛在注意力、新的負載平衡策略及多 token 預測訓練目標等算法改進實現了高效推斷和低成本訓練。模型訓練後也進行了監督微調 (SFT) 和強化學習階段以與人類偏好對齊。這與報告中提出的 MoE、效率提升及 RLHF 等關鍵渠道相呼應。
預測未來:三種情景
基於高影響渠道的進展,報告提出了 AI 算法在近期可能面臨的三種未來情景:
1. 數據限制成為瓶頸: 如果合成數據無法顯著擴大訓練資料來源,或新算法效率提升有限,領先模型的性能可能停滯,市場將由小型、專注的 AI 系統主導。
2. 算法無法有效擴展: 如果數據來源充足 (如通過合成數據),但新算法未能高效利用這些數據以獲取顯著性能提升,則大型模型雖可繼續訓練,但其成本效益可能不如針對特定任務的小型模型,導致小型 AI 系統佔優勢。
3. 算法和數據協同發展: 如果數據充足且算法能更有效地利用數據,則大型模型可能持續發展並成為重要因素,效率會隨規模擴大而提升。
政策制定與未來展望
報告強調,算法效率的提升可能影響硬體出口管制政策的有效性。若算法普遍進步,硬體受限的行為者 (如中國) 仍能以較低成本訓練模型,僅落後前沿一兩個升級周期。
為了應對這些不確定性,報告建議政策制定者應投資於監測算法進展的技術掃描能力,特別關注合成數據生成、數據修剪以及轉換替代品的擴展性。同時,也需關注如 RLHF 等訓練後調整方法的進展,這些方法對於提升模型性能和與人類價值觀對齊至關重要。