アリババクラウドのQwenチームが開発した最新のマルチモーダルモデルであるQwen3-Omniは、近日中に正式リリースされる予定です。信頼できる情報によると、このモデルはHugging FaceのTransformersライブラリにサポートPRを提出しており、これはエンドツーエンドのマルチモーダルAIシステムのオープンソース統合が間近に迫っていることを示しています。この進展は、Qwenシリーズの継続的な改善に基づいており、リソース制限のあるデバイスでの導入効率をさらに向上させることが目的です。

QQ20250922-095557.png

Qwen3-Omniは、Omniシリーズの第3世代製品で、エンドツーエンドのアーキテクチャにより、テキスト、画像、音声、動画などのさまざまな入力モードをシームレスに処理し、テキストや音声の出力を生成することができます。前世代のモデルと同様に、Thinker-Talkerという二つの設計を使用しています。Thinkerはマルチモーダル入力の理解と高次の表現の生成を担当し、Talkerはリアルタイムで自然な音声を合成します。このアーキテクチャにより、モデルはトレーニングおよび推論プロセスにおいて効率的なストリーミング処理が可能となり、特にリアルタイムインタラクションのシナリオに適しています。