1

熱搜:

熱門行情

最近搜尋

全部刪除

輝達發表全新AI模型DAM-3B:超越GPT-4o 精準描述圖片與影片細節

鉅亨網新聞中心
輝達發表全新AI模型DAM-3B,超越GPT-4o的多模態AI,精準描述圖片與影片細節。(圖:Shutterstock)
輝達發表全新AI模型DAM-3B,超越GPT-4o的多模態AI,精準描述圖片與影片細節。(圖:Shutterstock)

全球 AI 晶片龍頭輝達 (NVDA-US) 近期正式推出全新多模態語言模型 Describe Anything Model(DAM),儘管只有 3B 參數,但其不僅能針對圖片與影片中「特定區域」進行精準描述,還展現出超越 GPT-4o 的卓越細節辨識能力。此項創新被譽為視覺 AI 的終極突破,並已在 Hugging Face 平台開放使用。

根據輝達官方資訊,DAM 是與加州大學柏克萊分校與舊金山分校團隊合作開發的 3B 參數多模態模型。用戶只需透過點選或框選指定影像或影片的特定區域,AI 就能生成貼近人類邏輯、細膩且具上下文的自然語言描述。單張圖片的輸出內容甚至可達數百字,堪比人類撰寫的小型短文。

無論是靜態圖像中的寵物細節,還是影片中車輛的動態變化,DAM 都能給出極具臨場感的描述。例如,一張柯基奔跑在草地的照片,DAM 就可生成包含毛色、體型、動作、配件等要素的完整描述,遠超以往 AI 簡略敘述的水準。

DAM-3B 核心技術亮點:焦點提示、局部視覺骨幹與自建評測系統

Describe Anything Model 3B(DAM-3B)採用了兩項核心創新技術,大幅提升視覺細節辨識與自然語言生成能力,包括:

  • 焦點提示(Focal Prompt)技術

DAM-3B 可同時輸入整體畫面與高解析度局部區域,兼顧全局與細節,讓模型具備如同人類般「切換焦距」的能力。

  • 局部視覺骨幹架構與門控式交叉注意力

透過局部視覺骨幹(Localized Vision Backbone)與門控式交叉注意力(Gated Cross-Attention)機制,即使在影片動態或遮擋情境下,模型也能保持精準理解與描述。

DAM-3B 全面超越 GPT-4o,刷新多項視覺 AI 測試紀錄

在包括 Flickr30k Entities、PACO、Ref-L4、HC-STVG 等七大主流測試中,DAM-3B 及其影片版本 DAM-3B-Video 均全面超越 GPT-4o 及其他視覺語言模型(VLM)模型。

在影片字幕生成任務中,DAM-3B 精準度提升近 40%;在影片描述任務中,更刷新了 SOTA(state-of-the-art)紀錄達 89 分,展現無與倫比的細節豐富度與語意準確性。

此外,DAM-3B 還支援「零樣本問答」,可直接回應如「圖中紅色物體是什麼材質?」等複雜問題。

DAM-3B 應用場景廣泛,助力醫療、無障礙科技與影視產業

DAM-3B 的潛在應用領域非常廣泛,包括:

  • 醫學影像與衛星圖資標註:提升標記速度與細節精準度。
  • 影視創作與導演分鏡:快速生成細膩分鏡敘述,加速製作流程。
  • 無障礙科技:為視障人士提供即時、詳盡的畫面描述。

相關貼文

left arrow
right arrow