AIbase 12月9日報道 アリババのQwenチームは今日、新世代の全モード大モデル「Qwen3-Omni-Flash-2025-12-01」を発表しました。このモデルはテキスト、画像、音声、および動画のシームレスな入力をサポートし、リアルタイムのストリーミング応答を通じて高品質なテキストと自然な音声を同期して生成します。公式によると、このモデルの音声表現の自然さは人間のレベルに近づいています。

技術的突破:リアルタイムストリーミングの全モードインタラクション
Qwen3-Omni-Flashはリアルタイムストリーミングアーキテクチャを採用しており、テキスト、画像、音声、および動画のシームレスな入力と同期出力を実現できます。モデルは119のテキスト言語の対話、19の音声認識言語、および10の音声合成言語をサポートしており、多言語シーンでの正確な応答を確保します。
個別体験:System Promptのカスタマイズが可能
新バージョンではSystem Promptのカスタマイズ権限を全面的に開放しました。ユーザーはモデルの行動モードを細かく調整でき、例えば「甘えん坊」「セクシーな女性」といった特定の人設スタイルを設定したり、口語表現の好みや返答の長さを調整できます。モデルはテキスト内容に応じて語速、間隔、リズムを自動調整します。

性能向上:基準テストで全体的な飛躍
公式データによると、新しいモデルは論理推論タスク(ZebraLogic)でスコアが5.6ポイント上昇し、コード生成(LiveCodeBench-v6)で9.3ポイント、多分野のビジュアル質問応答(MMMU)で4.7ポイント上昇しています。これにより、強力なマルチモーダル理解と分析能力を示しています。
市場展開:APIがリリースされ、価格が手頃
Qwen3-Omni-Flashは現在、APIとしてリリースされています。入力は1百万トークンあたり1元、出力は3元です。モデルはQwen Chatにデモが統合されており、30秒の動画をアップロードし、リアルタイムで映像付きのナレーションを生成することが可能です。
業界的な意味:マルチモーダルが「人格化」の段階に入った
マルチモーダルがどれだけの画像を理解できるかを競っている中、アリババは「リアルタイムストリーム+人格化」をAPIにしています。ライブ配信、ショートビデオ、仮想会議などの音声・スタイル重視のシーンにおいて、これは「吹き替え俳優+後編集のナレーション」のコストをほぼゼロに近づけます。
今後の計画:
2025年1四半期には70Bの軽量版を発表する予定で、A100の1枚のカードでリアルタイムストリームを動作させます。2四半期には「10秒の音声コピー」のインターフェースを開発し、3四半期には「動画駆動型の顔」のベータ機能をリリース予定です。AIbaseは引き続き、音声コピーと動画駆動型の顔の機能の公開進捗を追跡していきます。
