画像編集分野において、画期的な技術がゲームのルールを変えることになりました!トウテンスマートと北京大学のUniWorldチームは、次世代の画像編集モデルである「UniWorld-V2」をリリースしました。このモデルは、画像処理の細部制御においてNano Bananaを上回り、中国語の指示を理解する能力も優れています。

UniWorld-V2は、革新的な視覚的強化学習フレームワーク「UniWorld-R1」に基づいています。このフレームワークは、初めて強化学習戦略最適化を画像編集に応用し、編集の正確性と柔軟性を大幅に向上させました。従来の監督的微調整方法とは異なり、UniWorld-R1はデータ過適合や一般化能力の低さの問題を解決することを目的として設計され、多様な編集指示に対してもより良い反応を可能にしています。

image.png

たとえば、ユーザーがAIに「女性の手のジェスチャーを『OK』に変更する」と指示した場合、UniWorld-V2は正確に理解して修正できます。一方、Nano Bananaはユーザーの意図を正確に捉えられませんでした。さらに驚くべきことに、ポスター編集の例では、UniWorld-V2は「月満中秋」といった複雑な中国語アートフォントをレンダリングでき、効果が明確で意味が正確であることを保証します。

このモデルの細かい制御力も注目されています。簡単な枠選択操作により、ユーザーは編集領域を指定し、特定の物体を枠外に移動させるなど、高難度の調整を実現できます。また、UniWorld-V2は光と影の処理において優れた能力を発揮し、物体をシーンに自然に統合し、全体の調和感を高めます。

image.png

テストベンチGEdit-BenchおよびImgEditにおいて、UniWorld-V2はそれぞれ7.83および4.49という高いスコアで他の有名モデル、例えばOpenAIのGPT-Image-1やGemini2.0を大きくリードしています。これらの成績の背景には、UniWorld-R1フレームワークの強力な汎用性があります。それは、UniWorld-V2の性能を向上させ、他のモデルにも顕著な改善をもたらしました。

UniWorld-R1の論文、コード、モデルはGitHubとHugging Faceで公開されており、今後の研究の基礎となっています。この技術のリリースは、マルチモーダル分野の発展を促進し、画像編集技術にも新たな可能性をもたらしました。

image.png

論文のURL:

https://arxiv.org/abs/2510.16888

GitHubリンク:

https://github.com/PKU-YuanGroup/UniWorld