通義ラボは昨夜、新たなマルチモーダル大規模モデル「Qwen3.5-Omni」を正式に発表しました。前世代と比較して、このモデルは理解力、インタラクティブ性、タスク実行能力において飛躍的な進化を遂げており、AIが「スクリーン内のアシスタント」から「物理世界を理解するインテリジェントなエージェント」へと真正の転換点を迎えていることを示しています。

コアな突破: フルモードと215のSOTA

Qwen3.5-Omniは、ネイティブな「フルモード」構造を採用しており、テキスト、画像、音声、ビデオ入力をスムーズに処理できます。音声・動画分析、推論、会話、翻訳を含むテストで、このモデルは215のSOTA(業界最高)の成績を収めました。特に一般的な音声理解と認識分野では、Gemini-3.1Proを全面的に上回り、視覚およびテキスト能力は同サイズのQwen3.5モデルと同等の最高峰の水準を維持しています。

QQ20260331-090527.jpg

技術的深掘り: Hybrid-Attention MoE構造

モデルは古典的なThinker-Talkerの分業モードを引き継ぎながら、下位レイヤーの再構築を行いました:

  • Thinker(理解中枢): Hybrid-Attention MoEにアップグレードされ、256Kの超長文脈をサポートします。これにより、最大で10時間の音声1時間のビデオを処理でき、TMRoPE技術によって長時間の時系列情報の中でも細かい情報を正確に抽出することができます。

  • Talker(表現中枢): 新しいARIA技術とRVQ符号化を導入し、重いDiT演算を置き換えました。これにより、音声出力における欠字や数字の誤読などの問題が解決され、モデルは強力なリアルタイム音声制御能力を備えています。

応用場面: Vibe Codingから音色クラウドまで

Qwen3.5-Omniの進化は、複数の画期的な応用シーンとして現れています:

  1. 自然に出現するVibe Coding: 特別な訓練を受けずに、モデルは驚くほど高いコード理解と生成能力を示し、ビデオの画面論理に基づいて直接Pythonコードやフロントエンドのプロトタイプを生成できます。

  2. 人間らしいリアルタイム対話: 意味による中断をサポートしています。咳などの雑音と本物の会話の違いを識別し、ユーザーは指示によって口調(例:「楽しくて」)や音量を調整できます。

  3. 細かいビデオ分解: 時刻付きの構造化キャプションを生成し、ビデオ中の人物の動作、背景音楽の変化、カメラの切り替えなどを正確に識別できます。

  4. パーソナライズされた音声コピー: ユーザーはわずかな録音をアップロードするだけで、高自然度で113言語に対応した独自の「デジタル分身」を作成できます。

現在、Qwen3.5-Omniはアリババクラウドの百煉プラットフォームで利用可能で、Plus、Flash、Lightの3種類のサイズが提供されており、リアルタイム会話(Realtime)APIと魔搭コミュニティのデモも同時に公開されています。