在圖像編輯領域,一項顛覆性的技術正在改變遊戲規則!兔展智能與北京大學的 UniWorld 團隊推出了新一代圖像編輯模型 ——UniWorld-V2。這一模型不僅在圖像處理的細節控制上超越了 Nano Banana,更在理解中文指令方面表現出色。
UniWorld-V2基於一種創新的視覺強化學習框架 ——UniWorld-R1,該框架首次將強化學習策略優化應用於圖像編輯,顯著提升了編輯的準確性和靈活性。與傳統的監督微調方法相比,UniWorld-R1的設計旨在解決數據過擬合和泛化能力差的問題,讓模型在面臨多樣化編輯指令時能夠更好地響應。

舉個例子,當用戶要求 AI 將一位女生的手勢改爲 “OK” 時,UniWorld-V2能夠精準理解並修改。與之相比,Nano Banana 則未能準確捕捉用戶的意圖。更令人驚歎的是,在海報編輯示例中,UniWorld-V2能夠渲染出複雜的中文藝術字體,如 “月滿中秋”,確保效果清晰且語義準確。
該模型的精細化控制力同樣令人矚目。通過簡單的框選操作,用戶可以指定編輯區域,實現高難度的調整,比如將特定物體移出框外。此外,UniWorld-V2還能在光影處理方面展現出色的能力,能夠自然地將物體融入場景,提升整體的和諧感。

在測試基準 GEdit-Bench 和 ImgEdit 中,UniWorld-V2分別以7.83和4.49的高分遙遙領先其他知名模型,如 OpenAI 的 GPT-Image-1和 Gemini2.0。這些成績的背後,得益於 UniWorld-R1框架的強大通用性,它不僅提升了 UniWorld-V2的性能,也爲其他模型帶來了顯著改進。
UniWorld-R1的論文、代碼和模型已在 GitHub 和 Hugging Face 平臺上公開,爲未來的研究打下基礎。這一技術的發佈,不僅推動了多模態領域的發展,也爲圖像編輯技術帶來了新的可能性。

論文地址:
https://arxiv.org/abs/2510.16888
GitHub鏈接:
https://github.com/PKU-YuanGroup/UniWorld
