香港中文大学と中国科学院などの研究チームが発表したMiCo(Multimodal Context)と呼ばれる全モダリティ事前学習パラダイムは、マルチモーダル学習分野で顕著な成果を収め、37項目の最先端性能(SOTA)記録を更新しました。(ChinaZ.com 6月17日報道)

主な特徴:
全モダリティ理解: MiCoは、あらゆるモダリティを理解し、汎用的な表現を学習できる全モダリティAIの構築を目指しています。
大規模事前学習: より多くのモダリティ、データ量、モデルパラメータを導入することで、MiCoは事前学習プロセスにおいて人間の脳のマルチモーダル認知プロセスを模倣しています。
ニューラルネットワーク構造設計: MiCoは異なるモダリティを「知識モダリティ」と「インターフェースモダリティ」に分類し、対応する全モダリティ学習アーキテクチャを設計し、生成推論方法を用いてアライメントを行っています。
マルチモーダルコンテキストとスケール則: MiCoはマルチモーダルコンテキストを利用してモダリティ間の相互強化を強化し、クロスモーダリティのコンテキスト関係を構築しています。
実験結果:
10種類の異なるモダリティの単一モダリティ知覚ベンチマークテストにおいて、MiCoは7つのSOTA成績を達成しました。
検索、質問応答、記述など、25種類のクロスモーダル理解タスクにおいて、MiCoは20個のSOTA成績を獲得しました。
18種類のマルチモーダル大規模言語モデルベンチマークテストにおいて、MiCoは10個のSOTA成績を達成しました。
MiCoの事前学習方法:
研究チームは、ビデオとそれに対応するオーディオ、テキスト記述、深度と法線を使用して共同事前学習を行い、人間の脳の視覚、聴覚、時空間知覚能力を模倣しました。
全モダリティエンコーダー(ViTなど)を使用してマルチモーダル特徴を抽出し、テキストエンコーダーを使用してテキスト特徴を抽出し、マルチモーダルコンテキスト関係を構築しました。
結論と今後の展望:
MiCoプロジェクトは、人工知能による人間の脳のマルチモーダル認知の模倣における重要な試みです。研究チームは、MiCoが将来の研究を促し、より強力な全モダリティ基礎モデルの開発につながることを期待しています。
今後の計画には、オプティカルフロー、IMUデータ、イベントファイルなど、より多くのモダリティを統合して、全モダリティ共同事前学習をさらに強化することが含まれます。
