パナソニックホールディングス株式会社(Panasonic HD)は、アメリカのパナソニックリサーチデベロップメントカンパニー(PRDCA)およびカリフォルニア大学ロサンゼルス校(UCLA)の研究者たちと共同で、「OmniFlow」というマルチモーダル生成AIを開発しました。この技術の特徴は、「何でも対何でも」の生成能力を持つことで、テキスト、画像、音声を自由に変換でき、マルチモーダル生成AIの応用範囲を大幅に広げています。
近年、マルチモーダル生成AIの研究が注目を集めていますが、特に音声を含む生成技術には多くの関心が寄せられています。しかし、従来の方法ではデータ収集に限界があり、テキスト、画像、音声データを同時に処理する際には、必要な訓練データ量やコストが急増します。OmniFlowは、異なるデータ形式(テキストと音声、テキストと画像など)の生成AIを柔軟に組み合わせることで、少量のデータでも高精度な「何でも対何でも」モデルを学習できるため、データ収集コストを大幅に削減できます。
OmniFlowの技術革新は国際的に認められており、2025年のコンピュータビジョンとパターン認識会議(CVPR)で発表される予定です。この技術の核心となるのは、3種類の異なるデータ特性を結び付け、処理することでより複雑なデータ関係を学習し、単純な平均処理を行わない点です。このアプローチにより、OmniFlowは生成プロセスで各モードの特徴を保持しつつ、表現力も向上させています。
評価実験では、OmniFlowは「テキストから画像」「テキストから音声」の生成タスクにおいて他の従来の方法よりも優れた性能を示し、最良の結果を達成しました。実験結果によると、他の「何でも対何でも」生成方法と比較して、OmniFlowが必要とする訓練データ量は1/60にまで減少することが分かりました。この顕著な優位性により、OmniFlowはマルチモーダルAI分野で際立っています。
将来にわたって、OmniFlowは工場やライフスタイルなど多くの分野での活用が期待されており、特定のシナリオ向けのデータを生成することができます。パナソニックホールディングスは引き続きAIの社会的活用を推進し、顧客の生活と仕事をより便利にするAI技術の開発に取り組んでいます。