北京智源人工智能研究院宣佈推出原生多模態世界模型Emu3。這一模型基於下一個token預測技術,無需依賴擴散模型或組合方法,就能夠完成文本、圖像、視頻三種模態數據的理解和生成。Emu3在圖像生成、視頻生成、視覺語言理解等任務中超過了現有的知名開源模型,如SDXL、LLaVA、OpenSora等,展現了卓越的性能。
Emu3模型的核心是一個強大的視覺tokenizer,它能將視頻和圖像轉換爲離散token,這些token可以與文本tokenizer輸出的離散token一起送入模型中。模型輸出的離散token可以被轉換爲文本、圖像和視頻,爲Any-to-Any任務提供了統一的研究範式。此外,Emu3的下一個token預測框架的靈活性使得直接偏好優化(DPO)能夠無縫應用於自迴歸視覺生成,使模型與人類偏好保持一致。
Emu3的研究結果證明了下一個token預測可以作爲多模態模型的一個強大範式,實現超越語言本身的大規模多模態學習,並在多模態任務中實現先進的性能。通過將複雜的多模態設計收斂到token本身,Emu3在大規模訓練和推理中釋放了巨大的潛力。這一成果爲構建多模態AGI提供了一條前景廣闊的道路。
目前,Emu3的關鍵技術和模型已經開源,包括經過SFT的Chat模型和生成模型,以及相應的SFT訓練代碼,以便後續研究和社區構建與集成。
代碼:https://github.com/baaivision/Emu3
項目頁面:https://emu.baai.ac.cn/
模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f