字節跳動 發佈了一款名爲 BAGEL 的開源多模態基礎模型,擁有70億個活躍參數,整體參數量達到140億。

image.png

BAGEL 在標準多模態理解基準測試中表現出色,超越了當前一些頂級開源視覺語言模型,如 Qwen2.5-VL 和 InternVL-2.5。此外,在文本到圖像的生成質量上,BAGEL 的表現也與強大的專業生成器 SD3相媲美。更重要的是,BAGEL 在經典圖像編輯場景中的效果優於許多領先的開源模型。

image.png

BAGEL 採用了一種名爲混合變換器專家(MoT)的架構,旨在最大化模型對多樣化多模態信息的學習能力。它使用兩個獨立的編碼器,分別捕捉圖像的像素級和語義級特徵。模型的整體框架遵循 “下一個標記組預測” 範式,訓練時旨在預測下一個語言或視覺標記,從而達到壓縮的目標。

在預訓練過程中,BAGEL 利用了來自語言、圖像、視頻和網絡數據的數萬億個交錯的多模態標記。經過持續訓練和監督微調,BAGEL 在標準的理解和生成基準測試中超過了開源模型,展示了先進的上下文多模態能力,如自由形式圖像編輯、未來幀預測、三維操作和世界導航等。

隨着 BAGEL 的預訓練逐步擴大,研究者們發現模型在理解、生成和編輯任務中的表現持續提升。不同的能力在訓練的不同階段出現,早期展現出多模態理解和生成的能力,而更復雜的智能編輯能力則在後期顯現。

研究表明,結合變分自編碼器(VAE)和視覺變換器(ViT)的特徵顯著提升了智能編輯能力,強調了視覺 - 語義上下文在複雜多模態推理中的重要性。

項目:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

劃重點:

🌟 BAGEL 是一款開源多模態基礎模型,擁有70億個活躍參數,超越多項標準基準測試。  

🖼️ 該模型在圖像生成和編輯任務中表現出色,能夠進行自由形式的圖像編輯和世界導航。  

📈 通過多模態預訓練,BAGEL 展示了持續的性能提升,適應了複雜的多模態推理任務。