1

熱搜:

熱門行情

最近搜尋

全部刪除

研調:DeepSeek高效AI模型有四大創新 挑戰業界高成本模型

鉅亨網新聞中心
DeepSeek示意圖。(圖:REUTERS/TPG)
DeepSeek示意圖。(圖:REUTERS/TPG)

研調機構 Counterpoint 今 (12) 日指出,DeepSeek 近期推出的 R1 與 V3 大型語言模型 (LLMs) 掀起業界熱議,這兩款開源模型不僅展現卓越性能,當中即透過四項創新讓其表現突出,更在成本上具備顯著優勢,API 價格比 ChatGPT o1 低達 96%,顛覆 AI 產業過往對高效能模型須依賴巨額資金與算力堆砌的認知。

DeepSeek 透過創新的計算效率,使其 AI 模型在表現上可與市場領先者競爭。這不僅讓投資人開始關注「資源高效運用」對 AI 發展的潛在影響,也可能促使產業重新審視現有的擴展法則,反思大規模算力是否仍是訓練先進模型的唯一途徑。

隨著 DeepSeek 發布其高效能模型,市場對 AI 運算資源需求的預期產生動搖,導致資料中心相關企業股票出現普遍下跌,特別是輝達 (NVDA-US)1 月 27 日股價單日暴跌近 17%,市值蒸發超過 5000 億美元,創下美股史上最大單日跌幅。儘管之後市場有所回穩,但投資人仍密切關注 AI 基礎設施支出的未來走向。

隨著 DeepSeek 和 Meta 等公司推動開源 AI,對封閉式專有模型如 OpenAI 形成更大挑戰,開源 LLMs 的崛起正在改變 AI 生態系,使競爭格局從技術領先轉向成本與可用性競爭。

值得關注的是,DeepSeek 的成功不僅涉及技術創新,也帶入地緣政治因素,其發布時機與美國 5000 億美元「星門計畫 (Stargate Project)」的宣布相近,耐人尋味。

研調指出,DeepSeek 透過多種技術突破,大幅降低訓練成本,一是強化學習 (Reinforcement Learning),運用「鏈式思考 (Chain of Thought)」技術,使模型能夠自我調適與推理,減少記憶與計算資源需求。

二是稀疏激活 (Sparse Activation),僅啟用部分模型參數 (6710 億個參數中僅 370 億個參數活躍),降低計算負擔;三是 8 位元精度 (8-bit Precision),採用 FP8 混合精度技術,有效降低 GPU 記憶體使用與計算成本。

四是多 Token 預測 (Multi-Token Prediction),可一次預測多個詞元,加速訓練與推理過程。

據業內消息,DeepSeek 訓練其模型僅使用約 2000 至 2048 張輝達 H800 GPU,並額外獲取約 1 萬張 A100 GPU,整體訓練預算約 600 萬美元。相比 OpenAI 與 Anthropic 等競爭對手動輒投入超過 1 億美元,DeepSeek 的成本控制策略確實展現了 AI 訓練的新可能性。

儘管 DeepSeek 在成本與技術上展現突破,其訓練成本的真實性仍受市場質疑,業界亦關注其是否接受政府補助或未披露的資源支持。不過,DeepSeek 的成功已促使產業重新審視 AI 發展模式,可能對半導體與數據中心市場帶來長期影響。

研調認為,DeepSeek 的創新是否將改變 AI 發展規則、AI 產業能否擺脫高昂算力依賴,走向更可持續發展的模式等相關問題,將成為未來市場觀察的焦點。

相關行情

相關貼文

left arrow
right arrow