1

熱搜:

熱門行情

最近搜尋

全部刪除

小米首個推理大模型MiMo開源 測試得分超越OpenAI、阿里

鉅亨網新聞中心
(圖:REUTERS/TPG)
(圖:REUTERS/TPG)

小米周三 (30 日) 宣布開源其首個專為推理而生的大模型「Xiaomi MiMo」。此模型透過連動預訓練和後訓練,全面提升了推理能力。

根據「小米大模型」公眾號訊息,MiMo 在數學推理(AIME 24-25)和程式碼競賽(LiveCodeBench v5)公開測評集上,憑藉僅 7B 的參數規模,超越了 OpenAI 的閉源推理模型 o1-mini 以及阿里 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。

在強化學習(RL)方面,MiMo-7B 的潛力也顯著超越了經典的開源 32B 模型。隨著 DeepSeek-R1 的推出,業界掀起了強化學習的共創潮流,DeepSeek-R1-Distill-7B 和 Qwen2.5-32B 成為廣泛使用的起步模式。在相同的 RL 訓練資料條件下,MiMo-7B 在數學和程式碼領域的強化學習能力表現特別突出。

MiMo 的推理能力提升得益於預訓練和後訓練階段的多層面創新。在預訓練階段,模型透過挖掘豐富的推理語料,合成了約 200B tokens 的推理數據,並進行了三階段訓練,以逐步提升訓練難度,總訓練量達到 25T tokens。

在後訓練階段,MiMo 採用了高效穩定的強化學習演算法和框架,提出了「Test Difficulty Driven Reward」來緩解獎勵稀疏的問題,並引入「Easy Data Re-Sampling」策略以穩定 RL 訓練。同時,設計了 Seamless Rollout 系統,讓 RL 訓練加速 2.29 倍,驗證加速 1.96 倍。

所有技術細節已在技術報告中公開,用戶可以透過以下連結獲取更多資訊:MiMo-7B 技術報告。此外,MiMo-7B 全系列模型已開源至 HuggingFace 平台,用戶可存取:HuggingFace - 小米 MiMo 進行下載。

小米表示,MiMo 計畫是由新成立的「小米大模型 Core 團隊」進行的初步嘗試。儘管 2025 年似乎是大模型發展的後半程,但小米相信 AGI 的旅程依然漫長,團隊將繼續從務實創新出發,勇敢探索未知,致力於突破智慧的邊界,回應每一次好奇。

相關行情

相關貼文

left arrow
right arrow