最近,普林斯頓大學、字節跳動、清華大學和北京大學聯手搞了個大事情,推出了一款名爲 MMaDA 的多模態大模型! 這可不是普通的 AI,它號稱能讓 AI 擁有“深度思考”的能力,還能在文本、圖像、甚至複雜的推理任務之間“七十二變”,表現力直接超越了你熟悉的 GPT-4、Gemini、甚至 SDXL!

你可能覺得,現在的多模態模型已經很厲害了,能看圖說話,也能根據文字生成圖片。但 MMaDA 告訴我們:這還遠遠不夠! 傳統的模型在處理不同模態時,往往需要各自獨立的組件或者複雜的混合機制,就像一個“多功能工具箱”,雖然啥都有,但每個工具都是獨立的,切換起來多少有點彆扭。
MMaDA 團隊就是要打破這種“壁壘”,讓 AI 真正實現一體化!
MMaDA 的三大“黑科技”:讓 AI 不止看懂,還能“想明白”!
MMaDA 之所以能脫穎而出,祕訣就在於它的三大核心創新:
統一擴散架構:模態盲盒,一網打盡!
想象一下,你有一個超級智能的“萬能膠水”,能把各種不同形狀、不同材質的碎片都完美地粘合在一起。MMaDA 就採用了這樣的“萬能膠水”——統一擴散架構。 這種架構具備共享的概率公式和模態無關的設計,這意味着它處理文本、圖像等不同類型的數據時,無需模態特有的組件! 這樣一來,AI 就能在不同數據類型之間無縫切換和處理,效率和連貫性都大大提升。

混合長鏈式思考(Mixed Long CoT)微調:讓 AI 學會“深度思考”!
我們知道,大模型能“思考”,很多時候靠的是“思維鏈”(Chain-of-Thought,CoT)。 但 MMaDA 更進一步,搞了個 “混合長鏈式思考”微調策略。 它精心設計了一種跨模態的統一 CoT 格式,強制 AI 在文本和視覺領域之間對齊推理過程。 這樣做的目的,是讓 AI 在進入最終的強化學習階段前,就能有一個“冷啓動”的訓練,從一開始就增強處理複雜任務的能力! 就像給 AI 提前準備好一本“武林祕籍”,讓它在實戰前就掌握了“深度思考”的內功心法!
統一強化學習算法 UniGRPO:生成與推理,齊頭並進!
光會思考還不夠,AI 還需要“實踐出真知”!MMaDA 提出了一個專門針對擴散模型設計的統一策略梯度強化學習算法——UniGRPO。 它通過多樣化的獎勵建模,巧妙地統一了推理和生成任務的後訓練,確保模型性能持續提升。 以前,推理和生成可能需要不同的訓練方法,但 UniGRPO 就像一個“全能教練”,能同時指導 AI 在“智力競賽”(推理)和“創意工坊”(生成)中都表現出色!

MMaDA 的“戰績”:全面碾壓,跨界稱王!
有了這三大“黑科技”加持,MMaDA-8B 模型在各項測試中都表現出了驚人的泛化能力,簡直是“跨界稱王”:
文本推理:它竟然超越了 LLAMA-3-7B 和 Qwen2-7B! 這意味着在數學問題解決、邏輯推理等複雜文本任務上,MMaDA 展現出了更強的“智力”!
多模態理解:它優於 Show-o 和 SEED-X! 在理解圖片、回答圖片相關問題上,MMaDA 的表現更準確、更全面。
文本到圖像生成:它超越了 SDXL 和 Janus! 這可不是小成就,SDXL 是目前公認的圖像生成強者,而 MMaDA 竟然能生成更準確、更符合世界知識的圖片,這得益於它強大的文本推理能力!
AIbase 認爲:這些成就凸顯了 MMaDA 在彌合統一擴散架構中“預訓練”和“後訓練”之間鴻溝方面的有效性,爲未來的研究和開發提供了一個全面的框架。

深入 MMaDA 的“內功心法”:如何實現“七十二變”?
那麼,MMaDA 具體是怎麼做到這種“七十二變”的呢?
統一 Token 化:無論是文本還是圖像,MMaDA 都用一致的離散 Token 化策略來處理。 這樣,所有數據都變成了統一的“樂高積木”,模型可以在一個統一的預測被遮蔽 Token 的目標下進行操作。 比如,一張512x512像素的圖片,會被轉換成1024個離散的 Token! 簡直是給不同模態穿上了統一的“制服”!

三階段“修煉”:MMaDA 的訓練過程就像“打怪升級”,分爲三個階段:
基礎預訓練(Stage1):用海量的文本和多模態數據,讓模型打下堅實的基礎。
混合長鏈式思考微調(Stage2):用精心策劃的“長鏈式思考”數據,讓模型學會推理和思考。 這一步是讓模型從“知道”到“明白”的關鍵!
UniGRPO 強化學習(Stage3):最後用強化學習,讓模型在推理和生成任務中持續優化,追求卓越。
靈活的採樣策略:在推理時,MMaDA 也非常靈活。
文本生成採用半自迴歸去噪策略,能生成更復雜、更詳細的描述。
圖像生成則採用並行非自迴歸採樣,效率更高。 這種靈活的組合,保證了在不同任務上的最佳表現。
不僅僅是生成:MMaDA 還能“腦補”和“填空”!
MMaDA 還有一個隱藏技能,那就是它天然支持圖像修復(inpainting)和外推(extrapolation),而且無需額外的微調! 這得益於擴散模型的特性,這些任務本身就可以被看作是“被遮蔽 Token 預測”問題,而這恰好是 MMaDA 訓練目標的一部分!
這意味着:
它能預測文本序列中缺失的部分。
能在給定圖像和部分輸入的情況下補全視覺問答的答案。
甚至能根據不完整的視覺提示,進行圖像修復!
這簡直是把 AI 變成了能“腦補”畫面和“填空”的萬能助手,極大地擴展了它的應用場景和泛化能力!
結語:擴散模型,AI 未來的新範式?
MMaDA 的誕生,無疑是多模態 AI 領域的一個里程碑。它首次系統地探索了基於擴散模型的通用基礎模型設計空間,並提出了創新的後訓練策略。 實驗結果表明,MMaDA 不僅能與那些專用模型相媲美,甚至在某些方面表現更優,這充分展示了擴散模型作爲下一代多模態智能基礎範式的巨大潛力!
雖然 MMaDA 目前的模型尺寸(8B 參數)還有提升空間,但它的出現,無疑爲 AI 領域描繪了一個更宏大、更統一的未來。想象一下,未來的 AI 不再是各自爲戰的“專家”,而是一個能深度思考、跨模態理解、還能無限創意的“全能天才”!
項目地址:https://github.com/Gen-Verse/MMaDA
