近年、人工知能分野では驚くべき変化が起こっており、特に大型言語モデル(LLMs)はマルチモーダルタスクで顕著な進展を遂げています。これらのモデルは言語の理解と生成能力において強力な潜在力を示していますが、現在のほとんどのマルチモーダルモデルは依然として自己回帰(AR)アーキテクチャを使用しており、推論プロセスが単調で柔軟性に欠けています。これに対し、香港大学と華為ノアの箱研究チームは、新しいモデル「FUDOKI」を提案しました。このモデルは、その限界を打ち破ることを目指しています。
FUDOKI の核となる革新は、まったく新しい非マスク離散フローマッチング(Discrete Flow Matching)アーキテクチャにあります。従来の自己回帰モデルとは異なり、FUDOKI は並列的なノイズ除去メカニズムを通じて双方向的な情報統合を実現し、複雑な推論や生成タスクでのパフォーマンスを大幅に向上させます。このモデルは画像生成とテキスト理解の間の橋を架け、両者の統一モデリングも可能にしました。

出典:AI生成、画像ライセンス提供者 Midjourney
このモデルの優位性は、マスクされていない設計にあります。生成プロセスがより柔軟になります。FUDOKI は推論プロセス中に生成結果を動的に調整できるため、まるで機械が人間的な思考方法を学んだかのような効果を発揮します。さらに、FUDOKI は画像生成の分野でも非常に優れた成果を収めており、GenEval ベンチマークで 0.76 のスコアを達成し、同じサイズの自己回帰モデルを上回り、高品質の生成結果と意味的正確性を実現しています。
FUDOKI の構築には、測定誘導確率パスと動力学最適速度が利用されています。これらの技術により、モデルは生成プロセス中に各トークンの意味的類似性を総合的に考慮できるようになり、より自然なテキストや画像の生成が可能です。また、モデルのトレーニングにおいて、FUDOKI は事前トレーニングされた自己回帰モデルを使用して初期化されるため、トレーニングコストが削減され、効率が向上します。
FUDOKI の登場により、マルチモーダル生成と理解に新しい視点が提供され、汎用的人工知能の発展に更なる基盤が築かれました。将来、FUDOKI がさらなる探求と革新をもたらし、人工知能技術のさらなる進展に寄与することを期待しています。
