來自智源研究院的Emu3團隊發佈了一套全新的多模態模型Emu3,該模型僅基於下一個token預測進行訓練,顛覆了傳統的擴散模型和組合模型架構,在生成和感知任務上均取得了最先進的性能。

一直以來,下一個token預測被認爲是通向人工智能通用智能(AGI)的希望之路,但在多模態任務上卻表現不佳。目前,多模態領域仍然由擴散模型(如Stable Diffusion)和組合模型(如CLIP與LLM的結合)主導。Emu3團隊將圖像、文本和視頻都標記化到離散空間中,並在混合的多模態序列上從頭開始訓練單個Transformer模型,從而實現了多模態任務的統一,無需依賴擴散或組合架構。

image.png

Emu3在生成和感知任務上的表現都超越了現有的特定任務模型,甚至超越了SDXL和LLaVA-1.6等旗艦模型。Emu3還能夠通過預測視頻序列中的下一個token來生成高保真視頻。 不同於Sora使用視頻擴散模型從噪聲中生成視頻,Emu3通過預測視頻序列中的下一個token,以因果的方式生成視頻。該模型可以模擬現實世界中環境、人物和動物的某些方面,並在給定視頻上下文的情況下,預測接下來會發生什麼。

image.png

Emu3簡化了複雜的多模態模型設計,將重點集中在token上,從而釋放了訓練和推理過程中的巨大擴展潛力。 研究結果表明,下一個token預測是構建超越語言的通用多模態智能的有效途徑。爲了支持該領域進一步的研究,Emu3團隊開源了關鍵技術和模型,包括一個強大的視覺標記器,可以將視頻和圖像轉換爲離散token,這在以前是公開不可用的。

Emu3的成功爲多模態模型的未來發展指明瞭方向,也爲實現AGI帶來了新的希望。

項目地址:https://github.com/baaivision/Emu3