正文

字節大模型新進展：首次引入視覺定位，實現細粒度多模態聯合理解，已開源 & demo 可玩

發布於AI新閒資訊

時間 :Aug 15, 2023

閱讀 :1分鐘

文章介紹了字節跳動推出的 BuboGPT 模型，該模型支持文本、圖像、音頻三種模態的多模態聯合理解，並首次引入視覺定位技術，能夠精確定位圖像中的對象。研究人員通過採用多模態指令調整的訓練方案，使得 BuboGPT 在多模態任務上取得了良好的效果。該模型已經開源並提供了可玩的 demo 頁面。

字節豆包 AI 手機項目生變：硬件負責人離職，項目進入“調整期”

字節跳動AI硬件團隊Ocean核心成員、豆包手機硬件產品負責人林夕近期離職，成爲公司2024年啓動AI手機項目以來首位核心硬件負責人出走，引發外界對項目前景的猜測。內部消息人士否認“豆包手機項目徹底消失”傳聞，稱項目並未關停，而是轉入新調整階段。

字節跳動旗下AI助手豆包正灰度測試社交功能，已打通飛書賬號體系。內測新增獨立“對話”頁面，支持添加豆包好友或飛書好友；收到好友申請時AI會自動發送打招呼消息，已添加的人類好友對話列表中將顯示“人類”標識。

火山引擎在2026原動力大會上發佈豆包視頻生成模型Seedance 2.5，實現跨越式升級。新模型支持單段原生30秒視頻直出，可同時導入最多50個全模態素材，生成可控性大幅提升。目前全球企業內測，預計7月初正式上線。

2026年6月23日，火山引擎在夏季FORCE原動力大會上發佈豆包視頻生成模型Seedance2.5，計劃7月上線。該模型實現30秒單段原生視頻直出、50個全模態素材聯合生成及保持畫面一致性的局部編輯三大突破。總裁譚待表示，視頻生成是通往世界模型的關鍵。

字節跳動發佈視頻生成模型Seedance2.5，支持單次直出30秒完整視頻，標誌視頻生成邁入長序列時代。同時推出多模態模型豆包Seed2.1及圖像模型Seeddream5.0，提升其在AI領域的競爭力。

智啟未來，您的人工智能解決方案智庫