現在、AI技術がますます成熟する中、香港中文大学のMMLabチームと北京航空航宇宙大学、上海交通大学などの大学の研究者たちは、画期的なツール—構造化された画像生成編集システムを共同で発表しました。このシステムの登場は、AIが図表やデータ視覚化の生成において重要な一歩を踏み出したことを示しています。現時点で、FLUX.1やGPT-ImageなどのAI生成モデルは自然画像の生成において優れた性能を発揮していますが、構造化された画像である図表や式では頻繁にエラーが発生し、データの正確性や論理性が保証されていません。
チームの分析によると、構造化された画像の生成と編集には3つの核心的なニーズがあります:正確なテキストレンダリング、複雑なレイアウト計画、そしてマルチモーダル推論能力です。これらの能力は教育、研究、オフィス業務において非常に重要です。しかし、現時点での技術ではこれらのニーズを満たすことができず、既存のデータセットは自然画像に焦点を当てており、厳密に整合された構造化サンプルが不足しています。

このボトルネックを打破するために、研究チームはデータ、モデル、評価の3つの側面で全面的な革新を実施しました。まず、データの面では、130万件のコード対応構造化サンプルベースを構築し、実行可能な図形描画コードを使って高品質な画像サンプルを生成し、それぞれのサンプルに詳細な思考過程の注釈を付けています。次に、モデルの面では、構造化画像と自然画像の生成能力を統合した軽量な視覚言語モデル(VLM)の統合設計を採用しました。最後に、新しい評価基準「StructBench」と指標「StructScore」を導入し、生成された画像の正確性を効果的に検証しています。

このような一連の革新を通じて、研究チームはAIが構造化された画像の理解と生成能力を向上させ、複数のオープンソースモデルとの比較で顕著な優位性を示しました。このシステムの公開により、構造化された視覚生成分野における空白が埋められ、マルチモーダルAIの発展に重要な技術的支援が提供されました。今後、このツールは教育、研究、オフィス業務など幅広い分野で活用され、AIが本当に効果的な生産性ツールとなることを支援します。
論文のアドレス: https://arxiv.org/pdf/2510.05091
