智源研究院發佈了新一代多模態基礎模型 Emu2,通過大規模自迴歸生成式多模態預訓練,顯著推動了多模態上下文學習能力的突破。Emu2 在少樣本多模態理解任務上表現出色,超越了主流多模態預訓練大模型 Flamingo-80B 和 IDEFICS-80B。Emu2 取得了多個少樣本理解、視覺問答、圖像生成任務上的最優性能。Emu2-Chat 可以精準理解圖文指令,實現更好的信息感知、意圖理解和決策規劃。Emu2-Gen 可以接受圖像、文本、位置交錯的序列作爲輸入,實現靈活、可控、高質量的圖像和視頻生成。Emu2 採用了更簡單的建模框架,並將模型規模化到 37B 參數。詳情請參考智源研究院發佈的項目鏈接。