9月1日、メイドゥーは正式に LongCat-Flash シリーズモデルを発表し、最近 LongCat-Flash-Chat および LongCat-Flash-Thinking の2つのバージョンをオープンソース化しました。この動きは多くの開発者から注目を集めています。今日は、LongCat チームが新しく家族の一員として LongCat-Flash-Omni を発表したことをお知らせします。このモデルは既存のものに比べて多くの技術革新を実現し、全モードリアルタイムインタラクションの新しい時代を示しています。

LongCat-Flash-Omni は、LongCat-Flash シリーズの効率的なアーキテクチャ設計に基づいており、最新の Shortcut-Connected MoE(ScMoE)技術を採用しています。これにより、効率的なマルチモーダル認識モジュールと音声再構築モジュールが統合されています。このモデルの総パラメータ数は5600億(アクティブパラメータは270億)にもなりますが、低遅延のリアルタイム音声・動画インタラクションの能力を提供することができます。この突破は、開発者にとってより効率的なマルチモーダルアプリケーションの解決策を提供します。

QQ20251103-102218.png

総合評価結果によると、LongCat-Flash-Omni は全モードベンチマークテストで優れた性能を示し、オープンソースの中で最も先進的レベル(SOTA)に達しています。このモデルはテキスト、画像、動画の理解、音声の認識と生成などの主要な単一モードタスクにおいて強力な競争力を示しており、「全モードでも性能が低下しない」目標を達成しています。

LongCat-Flash-Omni は一体型の全モードアーキテクチャを採用しており、オフラインマルチモードの理解とリアルタイム音声・動画インタラクションの能力を統合しています。そのデザインコンセプトは完全なエンドツーエンドであり、ビジュアルと音声エンコーダーをマルチモードセンサーとして使用し、直接テキストと音声トークンを生成し、軽量な音声デコーダーを使用して自然な音声波形を再構築することで、低遅延のリアルタイムインタラクションを確保します。

また、このモデルには段階的な早期マルチモード融合トレーニング戦略が導入されており、全モードモデルのトレーニングにおける異なるモードデータ分布の異質性に対応しています。この戦略により、各モード間の効果的な協調が保証され、モデル全体のパフォーマンスが向上します。

具体的な性能テストでは、LongCat-Flash-Omni は複数の分野で優れた性能を示しており、特にテキスト理解和画像理解タスクにおいて、性能が低下することなく大幅な向上を遂げています。音声や動画処理においても、このモデルの性能は突出しており、特にリアルタイム音声・動画インタラクションの自然さと滑らかさにおいて、多くのオープンソースモデルを上回っています。

LongCat チームはユーザーに新たな体験経路を提供しており、ユーザーは公式サイトを通じて画像、ファイルのアップロード、音声通話機能を体験できます。また、LongCat 公式アプリがリリースされ、ネットワーク検索と音声通話をサポートしています。今後は動画通話機能の追加も予定されています。

  • Hugging Face:

    https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

  • Github:

    https://github.com/meituan-longcat/LongCat-Flash-Omni