3月27日、阿里雲通義千問Qwenチームは、Qwenモデルファミリーの新世代エンドツーエンドマルチモーダルフラッグシップモデルであるQwen2.5-Omniを発表しました。この全く新しいモデルは、あらゆる面でのマルチモーダル認識のために設計されており、テキスト、画像、音声、ビデオなど、さまざまな入力形式をシームレスに処理し、リアルタイムのストリーミング応答を通じてテキストと自然音声合成出力を同時に生成できます。
Qwen2.5-Omniは、革新的なThinker-Talkerアーキテクチャを採用しています。これは、テキスト、画像、音声、ビデオのクロスモーダル理解をサポートし、ストリーミング方式でテキストと自然音声応答を生成することを目的とした、エンドツーエンドのマルチモーダルモデルです。Thinkerモジュールは脳のように、マルチモーダル入力を処理し、高レベルのセマンティック表現と対応するテキストコンテンツを生成します。Talkerモジュールは発声器官のように、Thinkerからリアルタイムで出力されるセマンティック表現とテキストをストリーミング方式で受信し、離散的な音声ユニットをスムーズに合成します。さらに、このモデルは、新しい位置エンコーディング技術であるTMRoPE(Time-aligned Multimodal RoPE)を提案しており、時間軸のアライメントにより、ビデオと音声入力の正確な同期を実現します。
このモデルはリアルタイムの音声ビデオインタラクションにおいて優れた性能を発揮し、ブロック入力と即時出力をサポートし、完全にリアルタイムのインタラクションを実現します。音声生成の自然さと安定性において、Qwen2.5-Omniは、多くの既存のストリーミングおよび非ストリーミングソリューションを凌駕しています。全モーダル性能において、Qwen2.5-Omniは、同規模の単一モーダルモデルをベンチマークテストした際に、卓越した性能を示し、その音声能力は同程度の大きさのQwen2-Audioを上回り、Qwen2.5-VL-7Bと同等のレベルを維持しています。さらに、Qwen2.5-Omniは、エンドツーエンドの音声指令追従において、テキスト入力処理と同等の効果を示し、MMLU一般的な知識理解やGSM8K数学推論などのベンチマークテストで優れた結果を示しています。
Qwen2.5-Omniは、画像、音声、音声ビデオなど、さまざまなモーダルにおけるパフォーマンスが、Qwen2.5-VL-7B、Qwen2-Audio、Gemini-1.5-proなどの同規模の単一モーダルモデルやクローズドソースモデルを上回っています。マルチモーダルタスクOmniBenchでは、Qwen2.5-OmniはSOTAの性能を達成しました。単一モーダルタスクでは、Qwen2.5-Omniは音声認識(Common Voice)、翻訳(CoVoST2)、音声理解(MMAU)、画像推論(MMMU、MMStar)、ビデオ理解(MVBench)、音声生成(Seed-tts-evalと主観的な自然な聴感)など、複数の分野で優れた性能を発揮しています。
現在、Qwen2.5-OmniはHugging Face、ModelScope、DashScope、GitHubでオープンソースとして公開されており、ユーザーはデモでインタラクティブ機能を試したり、Qwen Chatで直接音声またはビデオチャットを開始して、新しいQwen2.5-Omniモデルの強力な性能を没入型で体験できます。
Qwen Chat:https://chat.qwenlm.ai
Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
GitHub:https://github.com/QwenLM/Qwen2.5-Omni
デモ体験:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo