近日,來自香港大學、香港中文大學以及商湯科技的研究團隊發佈了一個令人矚目的新框架 ——GoT-R1。這一全新的多模態大模型通過引入強化學習(RL),在視覺生成任務中顯著提升了 AI 的語義和空間推理能力,成功應對複雜的文本提示生成高保真、語義一致的圖像。這一進展標誌着圖像生成技術的又一次飛躍。

目前,儘管現有的多模態大模型在根據文本提示生成圖像方面已有顯著進展,但在處理涉及精準空間關係和複雜組合的指令時,仍面臨諸多挑戰。GoT-R1正是爲了解決這一問題而誕生的。與其前身 GoT 相比,GoT-R1不僅擴展了 AI 的推理能力,更賦予了它自主學習和優化推理策略的能力。

image.png

GoT-R1的核心在於其強化學習機制。團隊通過設計一套全面有效的獎勵機制,幫助模型在生成圖像時更好地理解用戶的複雜指令。這一機制涵蓋了多個評估維度,包括生成圖像的語義一致性、空間佈局準確性和整體美學質量。更重要的是,GoT-R1還通過將推理過程可視化,使得模型能夠更準確地評估圖像生成的效果。

image.png

在經過全面的評估後,研究團隊發現,GoT-R1在一項名爲 T2I-CompBench 的基準測試中表現出色,尤其在處理複雜多層次指令時,展現了超越其他主流模型的能力。例如,在 “複雜” 基準測試中,GoT-R1的表現尤爲突出,其強大的推理和生成能力使得這一模型在多個評估類別中取得了最高分。

GoT-R1的發佈爲多模態圖像生成技術注入了新的活力,展現了 AI 在處理複雜任務時的無限可能性。隨着技術的不斷髮展,未來的圖像生成將會更加智能化和精準化。

論文:https://arxiv.org/pdf/2503.10639