このたび、アリババ・テンションQwenチームは最新バージョンであるQwen3-Omni-Flash-2025-12-01を正式にリリースしました。このアップグレード版はQwen3-Omniをもとに構築されており、新世代のネイティブなマルチモーダル大規模モデルとして、テキスト、画像、音声、動画などのさまざまな入力形式を効率的に処理し、リアルタイムのストリーミング応答を行い、テキストと自然な音声出力を生成します。

今回のアップグレードの主な特徴には、音声および映像のインタラクティブ体験が全面的に向上しています。このバージョンは、音声および映像指令の理解と実行能力が大幅に強化され、口語的なシナリオで一般的に見られる「知能低下」の問題を効果的に解決しています。複数回の音声および映像での会話の安定性と一貫性も向上しており、人間と機械のインタラクションがより自然でスムーズになっています。
また、システムプロンプト(System Prompt)の制御能力も飛躍的に向上しました。ユーザーはシステムプロンプトを完全にカスタマイズでき、モデルの行動を詳細に調整できます。役割のスタイル、口語表現の好み、または返信の長さの要件など、すべてを正確に実現でき、モデルの制御能力が向上しています。
多言語処理能力に関しては、新しいバージョンでは119種類のテキスト言語、19種類の音声認識言語、10種類の音声合成言語をサポートしています。以前のバージョンと比較して、Qwen3-Omni-Flashは言語に沿った安定性を全面的に最適化し、多言語環境での応答の正確性を確保しています。
音声生成の表現もより人間的で滑らかになりました。新しいバージョンでは、速度が遅く感じられたり、機械的な感覚が残る問題を効果的に解決し、モデルがテキストの内容に基づいて速度、間の取り方、リズムを自動的に調整する能力が向上しました。これにより、音声出力がより現実的な会話に近づきました。
客観的な性能指標において、Qwen3-Omni-Flash-2025-12-01のマルチモーダル機能は全体的に向上しました。テキストの理解と生成能力、音声の理解の精度、音声生成の自然さ、画像の理解の深さなどが前バージョンを大きく上回り、ユーザーにこれまでにない自然で正確かつ生き生きとしたAIとのインタラクション体験を提供します。
ポイント:
🌟 新バージョンQwen3-Omni-Flashは、音声および映像のインタラクティブ体験を向上させ、音声および映像指令の理解と実行能力を強化しました。
🌍 システムプロンプトのカスタマイズ機能が全面的に開放され、ユーザーはモデルの行動を詳細に調整し、インタラクションのカスタマイズ性を向上させることができます。
💬 多言語対応能力が最適化され、多言語環境下での応答の正確性と一貫性が確保されます。
