DeepSeek發表新模型並同步開源 成本僅GPT-4o的1/20
據陸媒《21 世紀經濟報導》,近日,量化巨擘幻方量化的子公司深度求索(DeepSeek)發表了全新系列模型 DeepSeek-V3,並同步開源,在 AI 圈引發熱議。
有評論稱,DeepSeek-V3 不僅霸榜開源模型,更在效能上與全球頂尖閉源模型 GPT-4o 和 Claude-3.5-Sonnet 不相上下。特別是,模型的訓練成本僅約 558 萬美元,僅為 GPT-4o 的二十分之一,資源運用效率極高。國外獨立評測機構 Artificial Analysis 測驗評價其「超越了迄今為止所有開源模式」。
深度求索 (DeepSeek) 是一家總部位於杭州的中國初創公司,由量化投資巨頭幻方量化創辦。據報導,DeepSeek-V3 擁有 6710 億個參數,僅用兩個月的時間和 558 萬美元的成本就完成了訓練,其成本效益遠優於其他大型科技公司開發的模型。
據報導,DeepSeek-V3 主要有幾項獨特的技術創新:
- 混合專家 (MoE) 架構:DeepSeek-V3 採用 MoE 架構,通過稀疏激活機制,僅激活 37 億個參數,顯著降低了計算量,同時提升了模型的處理能力。
- 多頭潛在注意力 (MLA) 機制:MLA 架構能降低 5%—13% 的推理視訊記憶體,進一步優化模型的訓練效率和生成速度。
- FP8 混合精度訓練框架:該框架降低了內存佔用,加快了計算速度,並與 MLA 架構結合,減少了資料量,降低記憶體佔用,使得在硬體性能受限的情況下,依然能夠高效完成大規模模型的訓練。
- DualPipe 算法:該算法有效降低了跨節點通信的開銷,進一步降低了訓練成本。
- 資料壓縮、選擇性處理、知識蒸餾:DeepSeek 採用資料壓縮、選擇性處理、知識蒸餾等技術,優先處理重要資料,簡化次要資料,提高訓練效率。
報導稱,這些技術創新使得 DeepSeek-V3 在性能上可與頂尖的閉源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相媲美,同時在成本控制上實現了突破。DeepSeek-V3 的訓練成本僅為 GPT-4o 的二十分之一,被譽為 AI 界的「拼多多」。
然而,DeepSeek-V3 的橫空出世也引發了一些質疑。一些業內人士指出,DeepSeek 團隊成員此前並未發表過有影響力的論文或參與過知名的實戰項目。DeepSeek-V3 的卓越性能是否真的源於其技術創新,或者是否存在其他因素,例如利用現有模型進行訓練,還有待進一步驗證。
DeepSeek 創辦人梁文鋒 2024 年 7 月接受媒體採訪時說,矽谷習慣將中國 AI 公司視為 follow 的角色,當一個中國公司以創新貢獻者的身份,加入到他們遊戲裡去,而且表現優異時,他們就很震驚。
梁文官認為,更多的投入不一定會產生更多的創新,否則大廠可以把所有的創新包辦了。研究和技術創新將永遠是 DeepSeek 第一優先。值得注意的是,根據業界專家測算,DeepSeek 在 V2、V3 上並不虧錢。
V3 獲得矽谷一批知名 AI 大佬的讚。 Lepton AI 創辦人、阿里巴巴原副總裁賈揚清表示,DeepSeek 是智慧和實用主義的體現:在有限的運算資源和人力條件下,透過聰明的研究產生最好的結果。這是一句相當中肯的評價。