1

熱搜:

熱門行情

最近搜尋

全部刪除

持續上線!DeepSeek朋友圈不斷擴大 連中國國家隊也出手了

鉅亨網編譯陳韋廷 綜合報導
持續上線!DeepSeek朋友圈不斷擴大 連中國國家隊也出手了(圖:Shutterstock)
持續上線!DeepSeek朋友圈不斷擴大 連中國國家隊也出手了(圖:Shutterstock)

隨著 DeepSeek 熱度飆升,該 AI 新創公司的「朋友圈」也在快速擴大,在中國國內最新一個是京東 (09618-HK) ,周三 (5 日) 宣佈正式上線 DeepSeek-R1 和 V3 模型,就連中國官方也出手,超算互聯網一口氣發布兩則公告,DeepSeek-R1、V3、Coder 等系列模型已陸續在國家超算互聯網平台上線。

前幾天,阿里雲、百度智慧雲、華為雲、騰訊雲、火山引擎、天翼雲已接入 DeepSeek 模型,海外的亞馬遜 AWS、微軟 Azure 等雲端巨頭同樣官宣支援。多家國產晶片廠商亦紛紛回應。

華為周三宣佈 DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro 上線昇騰社區,DeepSeek-V3 滿血版在國產沐曦 GPU 首發體驗上線。

天數智芯、摩爾線程、海光資訊也在周二 (4 日) 宣布支援 DeepSeek 模型,輝達、超微、英特爾等海外晶元巨頭在更早已完成支援。此外,無問芯穹、矽基流動等 AI 基礎設施廠商,以及青雲科技、PPIO 派歐雲、雲軸科技等獨立雲廠商,已宣佈適配及上架模型服務。

此外,國家超算互聯網平臺也已正式上線 DeepSeek-R1 模型的 1.5B、7B、8B、14B 版本,並將於近期陸續更新 32B、70B 等版本。除 R1 模型外,國家超算互聯網平台還上線了 DeepSeek-V3、DeepSeek-v2.5 系列、DeepSeek-coder 系列、DeepSeek-math 系列(7b)和 DeepSeek-v2 系列(Lite)等模型。

魔形智慧共同創辦人徐凌傑說:「當下,主流國產晶片已基本實現對 DeepSeek 蒸餾版小模型的相容支援,這意味著只要此前能運行 Llama、Qwen 這類常見模型,如今便可直接無修改地運行 DeepSeek 蒸餾版小模型。可以預見的是,隨著基於 DeepSeek 的應用如雨後春筍般爆發,越來越多晶片廠商的入局,新一輪市場競爭與價格調整或許即將拉開帷幕。」

至於外界比較陌生的國家超算互聯網平台,該平台由中國科技部指導發起,就像是算力的「南水北調」,整合全中國的超算資源,通過互聯網的思維運營超算中心,連接算力供給、應用開發、營運服務和使用者等各方資源,構建一體化的超算算力網路和服務平台。

對於有私有化部署需求,需引入專有數據進行 DeepSeek 模型訓練的用戶和企業,超算互聯網平台同樣提供了可靠的解決方案。

無論是雲端平台還是國產 GPU,各方都在接 DeepSeek 帶來的潑天富貴。從 2 月起,DeepSeek 的支援官宣一直不斷。

談及未來 DeepSeek 對中國 AI 產業鏈的利多影響,沐曦聯合創始人楊建表示,最大影響是強化學習的蒸餾流程開源,讓大模型在垂直領域的后訓練和推理成本急劇下降,同時在垂直領域的可用性急劇上升,同時催生大模型在各行各業的認知,提升私有化垂直模型部署的願望。R1 蒸餾 32B 模型的能力逼近 OpenAI 的 O1,讓企業可私有化低成本部署而不用擔心洩密問題,部署意願大大提升。

TrendForce 集邦諮詢研究指出,DeepSeek 模型雖然降低 AI 訓練成本,但 AI 模型的低成本化有望擴大應用場景,進而增加全球數據中心建置數量。

在研究層面,楊建預計,各大研究機構都會研究新技術來做預訓練和後訓練,加快新演算法落地。

在人才方面,楊建判斷大模型應用人才培養會更受重視。「2022 年到 2024 年聚集在少數企業,整體業界水準在萎縮。同時,2022-2024 年高校並未培養大模型應用人才。今年春節反應比較快的高校已開始打算春季大模型應用人才培養,到秋天會涵蓋數百所高校會跟隨,今年全國有望培養大模型應用開發人才 30 到 50 萬。」

相關貼文

left arrow
right arrow