字節跳動發佈全模態大模型Doubao-Seed-2.0-lite，AI能聽會看還能直接“上手”幹活

字節跳動旗下火山引擎於5月6日宣佈，豆包大模型家族正式迎來首款全模態理解模型——Doubao-Seed-2.0-lite。作爲該系列的重磅升級版本，新模型徹底打破了單一模態的限制，實現了視頻、圖像、音頻與文本的原生統一理解，標誌着其在多模態交互領域邁出了關鍵一步。

該模型在視覺與邏輯推理能力上表現尤爲亮眼。在物理、醫療等高階學科的複雜推理測試中，其性能已大幅超越今年2月發佈的Pro版本。而在細粒度感知以及具身理解等前沿領域，該模型更是達到了行業領先水平。通過融入語音理解技術，Doubao-Seed-2.0-lite 能夠實現“音畫同步”的深度聯合推理。這意味着它不僅能“看懂”視頻畫面，還能結合背景音頻精準判斷視頻內容的視聽一致性，甚至能根據指令在長視頻中精準定位特定事件，並還原複雜的人物關係脈絡。

在音頻處理層面，新模型展現了極高的翻譯與感知精度，支持包括中英在內的19種語種轉寫及14個語種的互譯。除了精準的語義識別，它還能敏銳捕捉語音中的情緒波動及環境背景聲，使其理解能力更接近人類的自然認知。

值得關注的是，Doubao-Seed-2.0-lite 的 Agent（智能體）與 Coding(編程)能力也同步完成了進化。模型對多輪複雜指令的遵循度顯著提升，具備了更強的自我拆解與校驗能力。在開發領域，它的代碼能力已覆蓋前端頁面、3D場景及遊戲開發，能夠交付視覺美觀且工程完整的產物。

此外，該模型首次實現了GUI（圖形用戶界面）理解與執行的一體化。它不僅能識別網頁或應用中的按鈕、菜單等元素，還能像真人一樣完成點擊、拖拽、輸入等操作，真正實現了從“讀懂界面”到“端到端交付任務”的閉環。

目前，這一技術已在電競覆盤、在線教育及跨境電商等多個領域落地。例如在電競場景中，AI可以作爲教練，連續分析長達25小時的比賽視頻與語音，自動生成戰術覆盤圖譜。與此同時，更高效的 Doubao-Seed-2.0-mini 版本也已同步上線，爲企業大規模、低成本部署全模態推理任務提供了更具性價比的選擇。

巨日祿宣佈與火山引擎達成深度合作 AI短劇進入“工業化”時代

杭州巨日祿科技與火山引擎合作，接入豆包視頻生成模型Seedance 2.0，推動AI劇製作從“手工作坊”向工業化流程轉變。核心突破在於效率與質量的雙重提升，通過集成火山引擎模型與雲基礎設施，影視製作關鍵指標實現質的飛躍。

火山引擎發佈新一代汽車 AI 方案超700萬汽車輛搭載豆包大模型

2026北京車展上，火山引擎推出基於Agentic AI架構的新一代汽車AI解決方案，包括AI座艙套件和豆包座艙助手。該方案旨在將智能座艙從“語音交互”升級爲具備自主思考與執行能力的“汽車大腦”。火山引擎副總裁楊立偉表示，此次升級通過三大底層引擎，打破現有座艙能力邊界。

火山引擎發佈Agentic AI汽車方案，豆包大模型加速智駕座艙生態變革

2026北京車展上，火山引擎推出基於Agentic AI架構的新一代汽車AI解決方案，集成AI座艙套件與豆包座艙助手，推動汽車人機交互從被動對話邁向自主智能體時代。總裁譚待透露，已覆蓋100%主流車企，搭載豆包大模型的智能汽車超700萬輛，涉及50餘品牌、145款車型。

車展頭條： 700 萬輛車的“大腦”換代，Agentic AI開啓座艙新元年

2026年北京車展上，汽車智能化競爭升級至“類人智能”階段。火山引擎發佈基於Agentic AI架構的新一代汽車AI解決方案，實現行業首個全鏈路端到端AI座艙架構落地，其大模型搭載量已突破700萬輛。該方案將智能座艙從“對話框”轉變爲“全能管家”，徹底顛覆傳統架構。

特斯拉宣佈車載語音接入豆包

特斯拉車載語音服務接入字節跳動旗下豆包大模型，由DeepSeekChat提供AI互動功能，採用雙模型落地方案，推動車載AI技術本土化。此舉是繼2025年8月與火山引擎合作後，特斯拉在中國市場的重要更新，進一步鞏固其在該活躍市場的地位。

字節跳動發佈全模態大模型Doubao-Seed-2.0-lite，AI能聽會看還能直接“上手”幹活

相關推薦

​巨日祿宣佈與火山引擎達成深度合作 AI短劇進入“工業化”時代

火山引擎發佈新一代汽車 AI 方案 超700萬汽車輛搭載豆包大模型

火山引擎發佈Agentic AI汽車方案，豆包大模型加速智駕座艙生態變革

車展頭條： 700 萬輛車的“大腦”換代，Agentic AI開啓座艙新元年

特斯拉宣佈車載語音接入豆包

巨日祿宣佈與火山引擎達成深度合作 AI短劇進入“工業化”時代

火山引擎發佈新一代汽車 AI 方案超700萬汽車輛搭載豆包大模型