最近、アップルの研究チームは最新のマルチモーダルAIモデル「UniGen1.5」をリリースしました。これは画像処理技術における重要なブレイクスルーを示しています。このモデルは画像を理解するだけでなく、生成や編集も行うことができ、これらの3つの機能がシステムに統合され、作業効率を大幅に向上させました。

従来の方法とは異なり、UniGen1.5は統一されたフレームワークを採用しており、画像の理解、生成、編集を同時に実行できます。研究者は、この統合的な設計により、モデルが画像生成時に強力な画像理解能力を活かすことができ、より高品質な視覚出力を提供できることを指摘しています。

image.png

画像編集に関して、UniGen1.5は「編集指示対応技術」という革新的な手法を導入しました。この技術は、モデルが元の画像と指示に基づいて詳細なテキスト記述を生成してユーザーの編集意図を捉えることで、画像を直接変更するのではなく、「まず考え、その後描く」ようなアプローチを採用しています。この方法により、複雑な編集要求に対する理解と実行の正確性が著しく向上しました。

また、UniGen1.5は強化学習においても顕著な進展を遂げています。研究チームは、画像生成と編集の両方のトレーニングに適用可能な統一された報酬システムを開発しました。このメカニズムにより、編集タスクで品質基準が不一致になる問題を克服し、さまざまなビジュアルタスクにおいて高いパフォーマンスを維持できるようになりました。

業界の標準テストでは、UniGen1.5は強い競争力を示しました。GenEvalおよびDPG-Benchテストでは、それぞれ0.89と86.83という高いスコアを取得し、BAGELやBLIP3oなどの他の人気モデルを大きく上回りました。専門的な画像編集テストImgEditでは、スコアが4.31となり、オープンソースモデルであるOminiGen2を越え、GPT-Image-1のような専有型非オープンソースモデルと同等の性能を示しました。

UniGen1.5は優れた性能を見せましたが、研究者たちはこのモデルがいくつかの面で改善の余地があることを認識しています。例えば、画像に文字を生成する際にはエラーが発生しやすく、特定の編集シナリオでは主体の特徴がずれたり、動物の毛の質感や色の偏りが生じる可能性があります。今後、アップルチームはこれらの問題の最適化に取り組んでいきます。

論文:https://arxiv.org/abs/2511.14760

ポイント:  

🌟 UniGen1.5はアップルが最新にリリースしたマルチモーダルAIモデルであり、画像の理解、生成、編集の機能を統合しています。  

🛠️ このモデルは「編集指示対応技術」によって画像編集の正確性を向上させ、ユーザーの意図を効果的に捉えています。  

📊 産業業界のテストでは、UniGen1.5の性能は他の人気モデルを大きく上回り、強力な競争力を示しています。