1

熱搜:

熱門行情

最近搜尋

全部刪除

阿里發布三款重磅AI模型 開源全模態與閉源語音合成雙線並行

鉅亨網新聞中心
阿里發布三款重磅AI模型 開源全模態與閉源語音合成雙線並行(圖:shutterstock)
阿里發布三款重磅AI模型 開源全模態與閉源語音合成雙線並行(圖:shutterstock)

阿里雲近期一次性發布三款多模態人工智慧大模型,引發業界高度關注。這三款模型分別是:業界首個原生端到端全模態 AI 模型 Qwen3-Omni、大幅升級的開源圖像編輯模型 Qwen-Image-Edit-2509,以及主打高品質語音合成的收費模型 Qwen3-TTS-Flash。

此次發布不僅展示了阿里在多模態領域的快速進展,更凸顯其「開源做生態、閉源兌現金」的清晰戰略布局。

以下為阿里官方對此次發布所做的介紹整理:

Qwen3-Omni:開源的全能型多模態選手

本次發布的最大亮點是完全開源、可免費商用的 Qwen3-Omni-30B-A3B。它被譽為業界首個原生端到端全模態模型,能夠無縫處理文本、圖像、音訊和視訊四種類型的輸入,並透過文本或自然語音進行即時串流式輸出。這解決了以往多模態模型需在不同能力間權衡取捨的難題。

該模型採用創新的 MoE(專家混合)架構,總參數達 300 億,但每次推理僅激活其中 30 億,大幅提升了效率。相較於半年前發布的 70 億參數稠密模型 Qwen2.5-Omni,這是一次巨大的架構升級。在性能方面,Qwen3-Omni 在 36 項音訊與影音多模態基準測試中,取得了 22 項第一的優異成績,其語音識別(ASR)、音訊理解能力可與 Gemini 2.5 Pro 相媲美。

此外,它支援多達 119 種文本語言、19 種語音輸入語言和 10 種語音輸出語言,展現了其強大的多語言能力。阿里同時還開源了專門的音訊描述模型 Qwen3-Omni-30B-A3B-Captioner,填補了開源社群在該領域的空白。

Qwen-Image-Edit-2509

另一款開源模型 Qwen-Image-Edit-2509 是對其前代產品的月度迭代升級。其前一版本已在全球大模型匿名競技場上獲得開源領域第一名。此次升級的核心在於一致性的巨大提升,主要體現在三大方面:

1. 支援多圖編輯:新版本學會了「拼圖」,可以將多張圖片(建議 1 至 3 張)融合處理,例如將兩人 P 到一起或將人物置入特定場景。

2. 單圖編輯一致性更強:在人像編輯上,能更好地保留面部特徵,避免「換臉崩壞」;在商品編輯上,能更好地維持產品本身樣貌;在文字編輯上,除了修改內容,還能調整字體、顏色甚至金屬質感。

3. 原生支援 ControlNet:內建深度圖、線稿、骨骼點圖等精確控制功能,讓專業使用者能更精準地控制生成效果,無需額外配置。 該模型同樣遵循 Apache 2.0 協議,可免費商用。

Qwen3-TTS-Flash

與前兩者不同,Qwen3-TTS-Flash 是一款不開源的收費語音合成(TTS)模型。阿里語音團隊今年投入大量資源建構了高品質語音資料集,該模型便是其重要產出之一。其最大特色是生成語音帶有情感,聲音極度逼真。

在專業的語音穩定性和音色相似度評測中,其表現已超越 SeedTTS、MiniMax 甚至 GPT-4o-Audio-Preview 等知名對手,達到業界頂尖水準。

功能上,Qwen3-TTS-Flash 支援 17 種不同音色,每種音色均可對應 10 種語言,包括中、英、日、韓、德、法、俄等多國語言。此外,它還支援多種漢語方言(如粵語、四川話、閩南語、吳語等)及英語口音(如美式、英式)。該模型的 API 定價為每萬字元人民幣 0.8 元,目前最大支援 600 個字元的輸入。

相關行情

相關貼文

left arrow
right arrow