アリババが全モダル大規模言語モデルQwen3-Omni-Flashを発表：リアルタイムストリーミング出力 119の言語対応

AIbase 12月9日報道アリババのQwenチームは今日、新世代の全モード大モデル「Qwen3-Omni-Flash-2025-12-01」を発表しました。このモデルはテキスト、画像、音声、および動画のシームレスな入力をサポートし、リアルタイムのストリーミング応答を通じて高品質なテキストと自然な音声を同期して生成します。公式によると、このモデルの音声表現の自然さは人間のレベルに近づいています。

技術的突破：リアルタイムストリーミングの全モードインタラクション

Qwen3-Omni-Flashはリアルタイムストリーミングアーキテクチャを採用しており、テキスト、画像、音声、および動画のシームレスな入力と同期出力を実現できます。モデルは119のテキスト言語の対話、19の音声認識言語、および10の音声合成言語をサポートしており、多言語シーンでの正確な応答を確保します。

個別体験：System Promptのカスタマイズが可能

新バージョンではSystem Promptのカスタマイズ権限を全面的に開放しました。ユーザーはモデルの行動モードを細かく調整でき、例えば「甘えん坊」「セクシーな女性」といった特定の人設スタイルを設定したり、口語表現の好みや返答の長さを調整できます。モデルはテキスト内容に応じて語速、間隔、リズムを自動調整します。

性能向上：基準テストで全体的な飛躍

公式データによると、新しいモデルは論理推論タスク（ZebraLogic）でスコアが5.6ポイント上昇し、コード生成（LiveCodeBench-v6）で9.3ポイント、多分野のビジュアル質問応答（MMMU）で4.7ポイント上昇しています。これにより、強力なマルチモーダル理解と分析能力を示しています。

市場展開：APIがリリースされ、価格が手頃

Qwen3-Omni-Flashは現在、APIとしてリリースされています。入力は1百万トークンあたり1元、出力は3元です。モデルはQwen Chatにデモが統合されており、30秒の動画をアップロードし、リアルタイムで映像付きのナレーションを生成することが可能です。

業界的な意味：マルチモーダルが「人格化」の段階に入った

マルチモーダルがどれだけの画像を理解できるかを競っている中、アリババは「リアルタイムストリーム＋人格化」をAPIにしています。ライブ配信、ショートビデオ、仮想会議などの音声・スタイル重視のシーンにおいて、これは「吹き替え俳優＋後編集のナレーション」のコストをほぼゼロに近づけます。

今後の計画：

2025年1四半期には70Bの軽量版を発表する予定で、A100の1枚のカードでリアルタイムストリームを動作させます。2四半期には「10秒の音声コピー」のインターフェースを開発し、3四半期には「動画駆動型の顔」のベータ機能をリリース予定です。AIbaseは引き続き、音声コピーと動画駆動型の顔の機能の公開進捗を追跡していきます。

アリババが全モダル大規模言語モデルQwen3-Omni-Flashを発表：リアルタイムストリーミング出力 119の言語対応

関連推奨

AI音声の巨頭が誕生！ElevenLabsは50億ドルを調達し、110億ドルの評価額に急上昇。世界で最も高価なAI音声サービス企業となる

グーグルとアップルが強力な提携！次世代のAIモデルが登場予定

テンセントゲームが2026年の冬休みに未成年者保護特別行動を開始 AI機能で家庭の科学的管理を支援

マスク、再び大言壮語：テスラのヒューマノイドロボットが住める惑星で独立した文明を建設できる

グーグルの財務報告が衝撃的！年間収入が400億ドルを突破 AIが急速に進化し、Geminiの利用者がチャットGPTに迫る