字節跳動旗下火山引擎於5月6日宣佈,豆包大模型家族正式迎來首款全模態理解模型——Doubao-Seed-2.0-lite。作爲該系列的重磅升級版本,新模型徹底打破了單一模態的限制,實現了視頻、圖像、音頻與文本的原生統一理解,標誌着其在多模態交互領域邁出了關鍵一步。

image.png

該模型在視覺與邏輯推理能力上表現尤爲亮眼。在物理、醫療等高階學科的複雜推理測試中,其性能已大幅超越今年2月發佈的Pro版本。而在細粒度感知以及具身理解等前沿領域,該模型更是達到了行業領先水平。通過融入語音理解技術,Doubao-Seed-2.0-lite 能夠實現“音畫同步”的深度聯合推理。這意味着它不僅能“看懂”視頻畫面,還能結合背景音頻精準判斷視頻內容的視聽一致性,甚至能根據指令在長視頻中精準定位特定事件,並還原複雜的人物關係脈絡。

image.png

在音頻處理層面,新模型展現了極高的翻譯與感知精度,支持包括中英在內的19種語種轉寫及14個語種的互譯。除了精準的語義識別,它還能敏銳捕捉語音中的情緒波動及環境背景聲,使其理解能力更接近人類的自然認知。

image.png

值得關注的是,Doubao-Seed-2.0-lite 的 Agent(智能體)與 Coding(編程)能力也同步完成了進化。模型對多輪複雜指令的遵循度顯著提升,具備了更強的自我拆解與校驗能力。在開發領域,它的代碼能力已覆蓋前端頁面、3D場景及遊戲開發,能夠交付視覺美觀且工程完整的產物。

image.png

此外,該模型首次實現了GUI(圖形用戶界面)理解與執行的一體化。它不僅能識別網頁或應用中的按鈕、菜單等元素,還能像真人一樣完成點擊、拖拽、輸入等操作,真正實現了從“讀懂界面”到“端到端交付任務”的閉環。

目前,這一技術已在電競覆盤、在線教育及跨境電商等多個領域落地。例如在電競場景中,AI可以作爲教練,連續分析長達25小時的比賽視頻與語音,自動生成戰術覆盤圖譜。與此同時,更高效的 Doubao-Seed-2.0-mini 版本也已同步上線,爲企業大規模、低成本部署全模態推理任務提供了更具性價比的選擇。