先ほど終了した国際機械学習会議(ICML)で、快手と上海交通大学は注目を集めるマルチモーダル生成理解モデル「Orthus」を発表しました。このモデルは、自己回帰型Transformerアーキテクチャを基盤としており、画像とテキストの間で自由に変換でき、これまでにない生成能力を持っています。現在、オープンソースとして公開されています。

Orthusの最大の特徴は、優れた計算効率と強力な学習能力です。研究によると、非常に少ない計算リソースで、Orthusは複数の画像理解指標において、既存の混合理解生成モデルであるChameleonやShow-oを上回っています。また、テキストから画像を生成するGenEval指標においても、この目的のために設計された拡散モデルSDXLを上回る性能を示しています。

快手

このモデルは、テキストと画像の相互関係を処理できるだけでなく、画像編集やウェブページ生成などの応用においても大きなポテンシャルを備えています。Orthusのアーキテクチャは非常に巧みで、自己回帰型Transformerをメインネットワークとして採用し、テキストおよび画像の生成用の特定モードのヘッダーを備えています。この設計により、画像の細部モデリングとテキストの特徴表現が効果的に分離され、Orthusはテキストと画像の複雑な関係に焦点を当ててモデリングできます。

具体的には、Orthusはいくつかの主要なコンポーネントから構成されており、テキストのトークン化器、視覚的自己符号化器、そして2つの特定モードの埋め込みモジュールが含まれます。このモデルは、テキストと画像の特徴を統一された表現空間に統合し、メインネットワークがモード間の依存関係を処理する際により効率的になります。推論フェーズでは、特定のタグに基づき、自己回帰的に次のテキストトークンまたは画像特徴を生成します。これにより、非常に高い柔軟性が実現されています。

これらのイノベーションにより、Orthusはエンドツーエンドの拡散モデリングと自己回帰メカニズムの不一致を回避し、画像の離散化による情報損失を減らすことができます。このモデルは、何恺明が画像生成分野で行ったMAR作業がマルチモーダル分野への成功した拡張と見なすことができます。

快手と上海交通大学のこの協力は、マルチモーダル生成モデルの発展に新たな可能性をもたらし、業界および学界からの注目と期待に値します。