在人工智能領域競爭日益激烈的今天,字節跳動的 Seed 團隊於5月13日正式發佈了其最新的多模態大模型 Seed1.5-VL,旨在爲智能體技術的進步鋪平道路。該模型經過超過3萬億 tokens 的多模態數據預訓練,不僅具備強大的通用多模態理解和推理能力,還顯著降低了推理成本。
與谷歌近期推出的 Gemini2.5Pro 相比,Seed1.5-VL 在性能上表現不相上下。谷歌的 Gemini2.5Pro 支持圖像、視頻、音頻和代碼的統一理解,並在多個基準測試中領先於 GPT-4.0。字節跳動的 Seed 團隊表示,儘管 Seed1.5-VL 的激活參數僅爲200億,但在60個公開評測基準中,Seed1.5-VL 在38個基準測試中達到了最新最優性能(SOTA),其中包括在19項視頻基準測試中贏得14項,以及7個 GUI(圖形用戶界面)代理任務中的3項。
在具體能力方面,Seed1.5-VL 展現了卓越的視覺推理、圖像問答和視頻理解等能力。在與智能體相關的任務中,該模型在7個 GUI 任務中取得了 SOTA 成績。此外,Seed1.5-VL 在設計上簡化了架構,降低了計算需求,使其更加適合交互式應用,能夠在 PC 和手機等不同平臺上順利完成複雜任務,比如收集和處理信息。
不過,Seed1.5-VL 仍面臨一些挑戰。在細粒度視覺感知方面,模型在目標計數、圖像差異識別和複雜空間關係解釋時遇到了一些困難,尤其是在處理不規則排列、顏色相似或部分遮擋的情況下。此外,模型在高層次推理任務上,有時會出現無根據的假設或不完整的響應,表明其在這些任務中還有提升空間。
儘管如此,Seed1.5-VL 的發佈標誌着字節跳動在多模態技術上的持續進步。該模型目前已在火山引擎上開放 API,用戶可以直接體驗這一新技術。