關於DeepSeek 投資人宜留心這8大要點
2024 年 1 月,DeepSeek 發表的多個 AI 模型引發了全球技術圈的關注與恐慌,其下載量在短時間內迅速攀升,甚至超越了 ChatGPT,成為市場焦點。
關於 DeepSeek,投資人宜注意下列 8 個關鍵點:
1. 下載量激增
DeepSeek 在短短一週內下載量高達約 240 萬次,超越了 ChatGPT,成為市場焦點。
2. 模型性能
DeepSeek 推出的 DeepSeek-V3 和 DeepSeek-R1 模型,前者是類 4o 模型,後者是類 o1 模型,前者訓練成本僅 Llama 3 的 1%,而後者推理成本只有 OpenAI o1 的 3%。
3. 技術創新
V3 模型在使用 H800 晶片時,透過 DeepSeekMoE 和 DeepSeekMLA 架構克服了記憶體和頻寬的限制。
4. 強化學習
R1 系列模型放棄了人類回饋 (HF) 部分,採用純強化學習 (RL) 的方法,提升了模型的推理能力,模型湧現「反思」能力。
DeepSeek 也用其 80 萬條思維鏈數據微調了阿里的 Qwen 模型,結果後者的推理能力也提升了。
5. 市場反應
DeepSeek 的成功引發了美股科技股的集體下跌,特別是輝達 (NVDA-US) 等公司的股價大幅下滑。
6. 資安問題
彭博社 29 日報導,表示微軟的安全研究人員在 2024 年秋季發現 DeepSeek 的員工使用 OpenAI 的 API 竊取了大量數據,可能用來訓練 V3 或 R1 模型,違反 OpenAI 規定。目前 DeepSeek 暫未回應。
麻煩不止於此,同日義大利當局要求 DeepSeek 提供有關該公司如何處理用戶數據的資訊,DeepSeek 將有 20 天時間來準備答复,目前 DeepSeek 已從義大利地區蘋果和 Google 的應用商店下架了 app。
7. 外界質疑
外界對 DeepSeek 的技術創新和模型的合法性存在大量質疑,尤其是其是否為蒸餾模型。(指將大型機器學習模型的知識轉移到較小模型的過程,旨在部署計算量較低但性能良好的小模型)
8. 未來展望
DeepSeek 尚未推出金融投資大模型,但預計這只是時間問題,未來可能會對 AI 產業產生深遠影響。
為何 DeepSeeK 的模型可以做到這麼低的成本,美國大廠卻只能望其項背?
1. 創新的模型架構
DeepSeek 採用了獨特的 DeepSeekMoE(混合專家)和 DeepSeekMLA(多頭潛在註意力)架構,這些創新使得模型在訓練和推理時更加高效,降低了計算資源的需求。
2. 使用 H800 晶片
儘管 H800 晶片的效能低於 H100,但 DeepSeek 在設計上充分優化了其架構,以克服記憶體和頻寬的限制,從而實現了高效的運算。
3. 強化學習的應用
DeepSeek 的 R1 模型放棄了傳統的 RLHF(人類回饋)部分,專注於純強化學習,這種方法減少了對昂貴人力資源的依賴。
4. 低精度訓練技術
DeepSeek 利用 FP8(8 位元浮點)資料格式進行訓練,減少了計算精度的同時提高了速度,從而顯著降低了訓練成本。
5. 高效率的後訓練策略
DeepSeek 在模型訓練完成後,進行了自我獎勵的後訓練,不僅提高了模型的效能,也減少了對外部資料的依賴。
6. 資源最佳化
DeepSeek 在模型訓練中透過聯合壓縮快取數據,減少了記憶體使用,進一步提高了推理效率。
其他廠商的挑戰
1. 高昂的研發成本
美國廠商通常在技術研發上投入龐大,導致整體成本較高。
2. 依賴高端硬體
許多美國廠商依賴高效能的硬體(如 H100),這使得他們的訓練和推理成本增加。
3. 複雜的監管環境
美國的科技公司面臨嚴格的監管和合規要求,這可能導致額外的營運成本。
4. 對人類回饋的依賴
許多美國公司仍然依賴人類回饋來優化模型,這增加了時間和成本。
綜上所述,DeepSeek 透過技術創新、資源優化和靈活的訓練策略,成功實現了低成本的目標,而其他廠商則面臨更高的研發和營運成本。