在上海舉辦的火山引擎 FORCE LINK AI 創新巡展上,字節跳動正式發佈了最新的視覺 - 語言多模態模型 ——Seed1.5-VL。該模型憑藉其出色的通用多模態理解和推理能力,成爲此次活動的焦點,吸引了衆多業界專家和開發者的關注。

Seed1.5-VL 的顯著特點是其增強的多模態理解與推理能力。與之前的版本相比,Seed1.5-VL 在視覺定位和推理的速度與準確性上有了顯著提升。此外,新增的視頻理解和多模態智能體功能,使其在處理複雜任務時表現更加出色。

image.png

超高性能與低成本優勢

儘管 Seed1.5-VL 的激活參數僅爲20B,但其性能已經達到了與 Gemini2.5Pro 相當的水平。在60個公開評測基準中,Seed1.5-VL 在38個任務上取得了 SOTA(state-of-the-art)表現,尤其是在視頻理解、視覺推理和多模態智能體能力方面,均處於行業領先地位。

在推理成本方面,Seed1.5-VL 也表現出色,其推理輸入價格爲每千 tokens 僅0.003元,輸出價格爲每千 tokens 僅0.009元,極具性價比。

image.png

便捷的 API 接入

目前,Seed1.5-VL 已經在火山引擎全面開放 API,開發者只需登錄後選擇 Doubao-1.5-thinking-vision-pro,即可快速調用其能力,構建自己的 AI 視覺助手、巡檢系統、交互 Agent 或下一代智能攝像頭。

爲驗證 Seed1.5-VL 的實際性能,記者進行了多項測試。通過上傳一張貨架圖片,Seed1.5-VL 能夠迅速識別出特定產品並計算其價格。在複雜的公務員圖形推理題目中,Seed1.5-VL 也顯示出了其強大的推理能力,能夠在短時間內捕捉並推導出其中的規律,完成難度較大的邏輯任務。

Seed1.5-VL 作爲 Seed 系列最新一代多模態模型,經過在超過3T token 的多模態數據上進行預訓練,展現出在圖像問答、圖表理解、視覺推理等多個任務上的卓越表現。該模型由三個核心組件構成,包括視覺編碼模塊 SeedViT、用於視覺特徵投影的多層感知機(MLP)適配器以及基於 MoE 架構的大語言模型 Seed1.5-LLM。

  • GitHub:https://github.com/ByteDance-Seed/Seed1.5-VL

  • https://seed.bytedance.com/zh/tech/seed1_5_vl