1

熱搜:

熱門行情

最近搜尋

全部刪除

DeepSeek異軍突起 浙大天才表現引矽谷驚奇

鉅亨網新聞中心
DeepSeek異軍突起 浙大天才表現引矽谷驚奇(圖:shutterstock)
DeepSeek異軍突起 浙大天才表現引矽谷驚奇(圖:shutterstock)

人工智慧 (AI) 領域的發展日新月異,其中,大型語言模型 (LLM) 更是備受矚目。在這一領域中,一家名為 DeepSeek 的中國新創公司異軍突起,不僅在技術上取得了重大突破,更以其獨特的發展模式,引起美國矽谷的關注和震驚。

據報導,訓練成本極低的「DeepSeek-V3」只用了 2048 張 H100 的 GPU 集群,且用時僅 53 天。一位美國 AI 行業研究員稱,「同等水準下,哪怕是全球 AI 第一梯隊的頭部公司,至少也要用到 1.6 萬張以上的 GPU 進行訓練,真的不可思議,太不可思議了。」

DeepSeek 的誕生與創辦人

DeepSeek 由 梁文鋒 於 2023 年 7 月創立,公司全名為「杭州深度求索人工智慧基礎技術研究有限公司」。梁文鋒本人出生於 1985 年,是浙江大學的畢業生,擁有電子工程和機器視覺的研究背景。

在創立 DeepSeek 之前,梁文鋒已在量化投資領域取得了成功,他於 2015 年創立了杭州幻方科技有限公司,並將 AI 技術應用於量化交易。

DeepSeek-V3 和 DeepSeek-R1

DeepSeek 之所以能引起全球關注,主要歸功於其在大型語言模型方面的技術突破。據報導,2024 年 12 月,DeepSeek 發布了 DeepSeek-V3 模型,該模型以驚人的低成本和高效率,在性能上與 OpenAI 的 GPT-4o 相媲美。

據多家陸媒報導,DeepSeek-V3 的訓練成本僅為 558 萬美元,而 GPT-4o 的訓練成本則高達 1 億美元,DeepSeek-V3 只用了 2048 張 H100 的 GPU 進行訓練,而其他同等級公司可能需要 1.6 萬張以上的 GPU。

DeepSeek-V3 的出現,顛覆了人們對於訓練大型語言模型的傳統認知,證明了即使在有限的資源下,也能開發出具有競爭力的 AI 模型。DeepSeek-V3 讓美國矽谷的科技巨頭感到震驚,甚至有專家認為,這可能意味著未來不需要大型 GPU 集群來訓練前沿的大語言模型。

此後,DeepSeek 在 2025 年 1 月 20 日又發布了 DeepSeek-R1 模型,並同步開源模型權重,允許用戶利用模型輸出,通過模型蒸餾等方式訓練其他模型。DeepSeek-R1 在各項指標上媲美每月 20 美元的 ChatGPT o1 版本,但卻完全免費。 此外,DeepSeek-R1 的 API 服務定價也相當親民,每百萬輸入 tokens 1 元 (快取命中)/4 元 (快取未命中),每百萬輸出 tokens 16 元,輸出 API 價格只有 OpenAI o1 的 3%。

DeepSeek 獨特的發展模式

除了技術上的突破,DeepSeek 的發展模式也值得關注。與其他大型語言模型公司不同,DeepSeek 並未依賴大量的外部融資,而是通過其在量化投資領域的盈利,為 AI 研發提供資金支持。 這種「自給自足」的模式,使得 DeepSeek 能夠更加專注於技術研發,而不必過度追求商業化。

DeepSeek 的潛在影響

據報導,DeepSeek 的出現,不僅挑戰了 OpenAI 等國際 AI 巨頭的地位,也為中國在 AI 領域的發展注入了新的活力。DeepSeek-V3 被認為是全球性價比最高的大模型,其在開源模型品類中排名全球第一,複雜問題和程式碼領域的表現也名列前茅。

北京政府肯定這一成就,也使 DeepSeek 的創辦人梁文鋒,受邀參加了中國國務院總理李強主持的座談會。 梁文鋒在會上就解決當前發展中的問題,以及如何做好今年的政府工作提出了建議。

梁文鋒和他的 DeepSeek 還在繼續求索。DeepSeek 的公眾號上寫道:「投身於探索 AGI 的本質,不做中庸的事,帶著好奇心,用最長期的眼光去回答最大的問題。」

相關貼文

left arrow
right arrow