智源研究院正式發佈了他們的新一代多模態世界模型 Emu3,該模型的最大亮點在於,它僅依靠下一個 token 的預測能力,就能在文本、圖像和視頻這三種不同模態中進行理解和生成。
在圖像生成方面,Emu3能夠根據視覺 token 預測生成高質量的圖像。這意味着用戶可以期待靈活的分辨率和多樣的風格。
而在視頻生成方面,Emu3則是以一種全新的方式工作,不同於其他模型通過噪聲生成視頻,Emu3通過順序預測直接生成視頻。這種技術的進步使得視頻生成變得更加流暢自然。
在圖像生成、視頻生成和視覺語言理解等任務上,Emu3的性能均超過了許多知名的開源模型,如 SDXL、LLaVA 和 OpenSora。其背後是一個強大的視覺 tokenizer,能夠將視頻和圖像轉換爲離散的 token,這樣的設計爲統一處理文本、圖像和視頻提供了新的思路。
比如說,在圖像理解方面,用戶只需簡單輸入一個問題,Emu3就能精準描述出圖像內容。
Emu3還具備視頻預測能力。當給定一個視頻時,Emu3可以基於已有的內容,預測接下來會發生什麼。這使得它在模擬環境、人類和動物行爲方面顯示出了很強的能力,能夠讓用戶感受到更真實的互動體驗。
此外,Emu3的設計靈活性也讓人耳目一新。它可以直接與人類的偏好進行優化,這樣生成的內容更加符合用戶的期待。而且,Emu3作爲一個開源模型,吸引了技術社區的熱議,許多人認爲這一成果將徹底改變多模態 AI 的發展格局。
項目網址:https://emu.baai.ac.cn/about
論文:https://arxiv.org/pdf/2409.18869
劃重點:
🌟 Emu3通過下一個 token 的預測,實現了文本、圖像和視頻的多模態理解與生成。
🚀 在多個任務上,Emu3的性能超越了多款知名開源模型,展現出強大的能力。
💡 Emu3的靈活設計和開源特性,爲開發者提供了新的機會,有望推動多模態 AI 的創新與發展。