DeepSeek衝擊AI股
![](https://cimg.cnyes.cool/prod/news/5853681/m/4a887bbd9161cbe2a6162c7aa12b82b8.jpg)
文.洪寶山
DeepSeek 在台股農曆春節封關後才亮刀,2 月 3 日加權指數開紅盤收跌 - 830.7 點、收 22694.71 點,都說上市公司把散戶當韭菜割,最具代表就是宏達電,結果 DeepSeek 把一票 AI 科技大老的合照當背景,對照黃仁勳 1 月尾牙宴請 35 名科技大老的「破兆元」合照,根據媒體的宴請名單,2 月 3 日收盤價:台積電跌 - 5.73%、鴻海跌 - 8.06%、廣達跌 - 9.83%、英業達跌 - 6.69%、緯穎跌 - 9.82%、日月光投控 (矽品) 跌 - 9.04%、技嘉跌 - 6.9%、華擎跌 - 3.7%、宏碁漲 + 3.9%、和碩漲 + 0.72%、微星漲 + 7.99%、華碩漲 + 6.92% 等。
鴻蒙與 DeepSeek 突破美科技圍堵
DeepSeek 這刀割得又準又狠,不輸 2023 年美國商務部長雷蒙多訪華期間,華為推出麒麟 9000S 七奈米晶片的 5G 手機 Mate 60 Pro,中國網友P圖把雷蒙多當作 Mate 60 Pro 的最佳代言人。
美國在拜登四年任期對中國半導體嚴厲封鎖,結果中國從軟體突破,先有華為鴻蒙作業系統脫離安卓作業系統,2024 年第一季在中國市佔率 17%,首次超過 iOS 成為中國第二大行動平台,後有 DeepSeek 突破 AI 算力限制,這過程就像大禹的父親鯀治水,用圍堵的方法終究是百密一疏,反倒是中國把美國的科技制裁當練功房,關關難過關關過。
四兩撥千斤 顛覆高算力迷思
DeepSeek 的橫空出世動搖了過去兩年輝達建構的高算力是 AI 的基礎建設的必勝投資邏輯,由於輝達從 2023 年到 2024 年連續五季營收翻倍成長,讓投資人以為 AI 就等於追逐高算力,而高算力就需要輝達的 GPU,結果 DeepSeek-V3 預訓練僅需約 270 萬 GPU 小時,而同樣規模的開源 LLaMA 模型則需要約 3000 萬 GPU 小時,兩者效果差不多。且不論總成本是否真的較低,單單從軟體著手,就可以破解 GPU 搶購潮,不僅打臉美國的 AI 晶片禁令,也顛覆了過去兩年台灣股民追捧輝達 GPU 相關供應鏈的投資邏輯。
DeepSeek 的效率革命主要是採用了 (1) 混合專家 (MoE) 架構,每次只啟動部分參數,減少計算量。(2)多頭潛在注意力 (MHLA) 技術降低記憶體佔用,提升效率。(3)FP8 混合精度訓練,保證性能的同時,進一步提升計算效率,使得 DeepSeek-V3 模型在訓練時僅需同等規模開源模型約 9% 的算力,便能達到甚至超越其性能。
降低訓練模型成本 加速 AI 發展
簡單來說,DeepSeek-V3 只會在需要時啟動部分「腦細胞」而不是全部,這樣就大大降低了運算資源的消耗,這個模型僅需啟動 370 億參數進行推理,而非動用完整模型的 6710 億參數,從而降低了即時運算的資源消耗。對照 ChatGPT-4 是 1750 億個參數強大語言模型,就可明白 DeepSeek-V3 所需的算力的確少很多,更明顯的對照是 OpenAI o1 每個月收費 200 美元,DeepSeek 免費使用,難怪連微軟、亞馬遜與輝達都採用。
根據新浪財經報導,DeepSeek 擁有 5 萬塊輝達 GPU,對比 OpenAI、谷歌、Anthropic 等領先 AI 實驗室動輒超過 50 萬塊 GPU 相比,基礎建設的投入成本低到驚人。而 DeepSeek 能在兩年內以僅 557 萬美元開發出高性能的 AI 模型,與 OpenAI 的 GPT-4 模型訓練成本 6300 萬美元形成鮮明對比。
開放 AI 自習創新 震撼市場
DeepSeek 撼動全球的關鍵不在於訓練模型成本較低,而是在於創新。過去包括 OpenAI 在內都認為 AI 模型要靠人工數據或合成數據來訓練思維鏈能力,但 OpenAI 的模型是封閉式,o1 強推理模型發布後,它的推理過程根本不對外公布。但這次 DeepSeek-R1 完全靠機器自己通過強化學習,拚命地自己給自己出題,讓自己給自己解題。
這次 DeepSeek-R1 完全是無中生有,靠機器自己跟自己來強化學習,鍛鍊了複雜推理能力,然後再把這個能力蒸餾給 DeepSeek-V3 模型,實現了機器強化學習的創新之路,才是震撼全球的關鍵。
還記得擊敗職業棋士的人工智慧圍棋程式「AlphaGo」嗎?後來就是靠著機器強化學習來精進棋藝。DeepSeek 藉由強化學習 (RL) 提升模型推理能力,就是微軟、Meta、亞馬遜與輝達肯定 DeepSeek 的地方。
1 月 31 日微軟將 DeepSeek-R1 正式納入 Azure AI Foundry,成為該企業級 AI 服務平台的一部分。同日,亞馬遜表示 DeepSeek-R1 模型現在已可以在 Amazon Web Services 上使用,輝達跟進提供了 NVIDIA NIM,讓 DeepSeek-R1 模型可在 NVIDIA NIM 微服務預覽版上使用。
網路泡沫 vs. AI 算力過剩
過去兩年四大 CSP 搶購 GPU 會不會造成算力過剩呢?從千禧年的網路泡沫來看,當年市場對網路光纖的基礎建設過度樂觀,網路創新應用產品跟不上來,在 2005 年之前的股票市場處在擠泡沫的階段,直到 2006 年 iPhone 問世,社群應用,2010 年電商模式成熟,虛擬世界的經濟才又蓬勃起來。
這兩年 CSP 對 GPU 的搶購潮就有點像千禧年對互聯網經濟的樂觀期待,最終還是要看符合消費者端的應用產品何時普及。
來源:《理財周刊》1276 期
更多精彩內容請至 《理財周刊》