路透:DeepSeek加速推出新AI模型R2 可能比原計畫5月更早發布

路透周二 (25 日) 援引知情人士消息報導,中國人工智慧 (AI) 新創公司深度求索 (DeepSeek) 原本計劃在 5 月推出新一代 AI 模型「R2」,但現在該公司希望盡快推出。據了解,新模型在寫程式和多語言推理方面的能力有所提升。
DeepSeek 的成功可能會徹底改變 AI 行業。印度科技服務商 Zensar 營運長 Vijayasimha Alilughatta 表示,若 R2 模型問世,可能成為 AI 產業的重要轉捩點。這也可能引起美國政府的關注,因為 AI 領先地位已被確定為國家優先事項。隨著中國當局和多家企業積極將 DeepSeek 的模型整合到產品中,DeepSeek 可能進一步加強中國在 AI 領域的影響力。
DeepSeek 的創始人梁文鋒曾透過其量化避險基金 High-Flyer 成為億萬富翁,該公司至今仍保持低調。DeepSeek 過去一直像一個研究實驗室,而非傳統的盈利企業,並且擺脫了中國高壓技術行業的傳統層級結構,專注於 AI 模型的突破。
知情人士表示,DeepSeek 的成功可歸功於 High-Flyer 長期在 AI 研究和計算能力上的大規模投資。這家公司在 2020 和 2021 年投資人民幣 12 億元,購置由約 10,000 個輝達 (NVDA-US)A100 晶片組成的兩個超級運算 AI 集群,這些運算資源用於訓練 AI 模型。
儘管 DeepSeek 在成立初期並未直接參與這些運算資源的運用,但其大量的運算資源引起中國證券監管機構的注意,並在 2022 年美國禁止對中國出口 A100 晶片後,DeepSeek 獲得了關鍵的計算資源。這些資源讓 DeepSeek 能夠吸引到中國頂尖的 AI 研究人才,進而進行大規模的實驗。
DeepSeek 的 AI 模型技術具有顯著的成本效益。公司採用 Mixture-of-Experts(MoE) 和 MLA 技術,這些方法大幅降低了運算成本,從而能夠以比 OpenAI 便宜 20 至 40 倍的價格提供相似的 AI 模型。
MoE 技術將 AI 模型分為不同的專業領域,並且只啟動與問題相關的領域,這樣能夠減少無效運算。MLA 技術則使得模型能夠同時處理一條資訊的不同方面,有助於更有效識別關鍵細節。
目前,DeepSeek 的成功迫使一些西方科技公司重新評估其 AI 策略。OpenAI 已經在近期調降價格,而 Google(GOOGL-US) 的 Gemini 也推出了折扣方案。DeepSeek 的出現讓 AI 領域的競爭更加激烈,未來市場將可能迎來更多的變革與挑戰。
據三位熟悉其薪酬政策的人士透露,DeepSeek 和 High-Flyer 以豐厚的薪酬聞名。在 High-Flyer,一名資深數據科學家的年薪常常達到人民幣 150 萬元,而競爭對手很少支付超過人民幣 80 萬元的薪資。
這些薪資的資金來自於 High-Flyer,這是一家中國最成功的量化基金之一,儘管北京政府曾對科技業進行了打壓,但該基金仍管理著數百億元的資金。