在剛剛結束的國際機器學習大會(ICML)上,快手與上海交通大學攜手推出了一款令人矚目的多模態生成理解模型 ——Orthus。這款模型以其自迴歸 Transformer 架構爲基礎,能夠在圖文之間自如轉換,展現出前所未有的生成能力,目前已正式開源。
Orthus 的最大亮點在於其卓越的計算效率與強大的學習能力。研究表明,在僅需極少計算資源的情況下,Orthus 在多個圖像理解指標上超越了現有的混合理解生成模型,如 Chameleon 和 Show-o。在文生圖生成的 GenEval 指標上,Orthus 更是表現出色,超越了專爲此設計的擴散模型 SDXL。
該模型不僅能處理文本和圖像之間的交互關係,還在圖像編輯和網頁生成等應用中展現出巨大潛力。Orthus 的架構設計非常巧妙,採用了自迴歸 Transformer 作爲主幹網絡,配備了特定模態的生成頭,分別用於生成文本和圖像。這種設計有效解耦了圖像細節的建模和文本特徵的表達,使得 Orthus 能夠專注於建模文本和圖像之間的複雜關係。
具體來說,Orthus 由多個核心組件構成,包括文本分詞器、視覺自編碼器以及兩個特定模態的嵌入模塊。它將文本和圖像特徵融合到一個統一的表示空間中,讓主幹網絡在處理模態間的依賴關係時更加高效。模型在推理階段會根據特定的標記,自迴歸地生成下一個文本 token 或圖像特徵,展現了極強的靈活性。
通過這些創新設計,Orthus 不僅避免了端到端擴散建模與自迴歸機制之間的分歧,還減少了圖像離散化帶來的信息損失。這一模型可以被視爲何愷明在圖像生成領域的 MAR 工作向多模態領域的成功拓展。
快手與上海交通大學的這一合作,無疑爲多模態生成模型的發展帶來了新的可能性,值得業界和學界的關注與期待。