字節跳動近日正式發佈其最新開源多模態基礎模型——BAGEL(Big Advanced Generalized Embodied Learner),以70億個有效參數的規模,開啓多模態AI模型的新階段。BAGEL在圖像理解、生成和編輯等關鍵任務中表現卓越,已在多個標準評測中超越當前主流開源視覺語言模型(VLM),如Qwen2.5-VL和InternVL-2.5。
BAGEL模型基於大規模交錯多模態數據進行訓練,不僅具備強大的文本轉圖像生成能力,其效果甚至可媲美專業級生成器Stable Diffusion3(SD3)。在圖像編輯、自由形式操作、多視圖合成等複雜任務中,BAGEL的定性表現顯著優於現有模型,顯示出其在“世界建模”等前沿方向上的潛力。


技術架構方面,BAGEL採用混合變壓器-專家(MoT)結構,並使用兩個獨立編碼器分別捕捉圖像的像素級和語義級特徵。其訓練範式遵循“下一組標記預測”策略,支持更高效的多模態預訓練與監督學習,從而在理解與生成能力上實現階梯式增強。
爲了方便開發者使用,字節跳動不僅開源了預訓練模型及評估腳本,還提供了詳盡的使用文檔和Gradio WebUI,便於快速部署與測試。用戶可通過GitHub Pages獲取全部資源。
研發團隊鼓勵社區積極參與模型優化,歡迎通過GitHub Issue或Discord渠道反饋模型在真實場景中的表現問題。字節跳動表示,持續開放與協作將是推動BAGEL進步的關鍵。
作爲一個集理解、生成與編輯能力於一體的多模態模型,BAGEL的推出無疑爲AI研究者與開發者提供了更強大的工具,也標誌着通用人工智能邁入更實用、更開放的新階段。
地址:https://github.com/ByteDance-Seed/Bagel
