6月5日、2026年AI産業応用大会において、騰訊雲の音声・映像機能はAIネイティブな能力基盤「WAND」を正式に発表しました。20年以上の技術蓄積を基盤として、騰訊雲の音声・映像機能は今回のアップデートで、下位モデル、メディア能力、接続方法をすべて刷新しました。音声・映像メディアのAI能力は、エージェントネイティブなモードを通じて業界に開放され、単一のメディア処理能力の提供から、AIアプリケーションとエージェント向けのネイティブなメディア基盤への戦略的アップグレードを実現しました。

WANDアーキテクチャはモデルエンジン、能力層、シナリオソリューションの3層から構成されており、コーデック、強化、消去、生成、理解、音声の6つの独自メディア専用モデルを含み、主流のジェネレーティブ大規模モデルがメディア生産プロセスにおいて不足している点を補完しています。

WAND能力アーキテクチャ図
現実的なビジネスにおいて、WANDは高い適合性と効率性を示しています。
また、高同時接続数や極めて低遅延が求められるスポーツライブ配信の場面において、WANDは自社モデルの協調的なスケジューリングにより、認識、生成、合成、符号化を完全な自動化フローに統合し、従来の対策と比較して50%以上もビットレートを節約しています。これにより数千本の世界トップレベルのスポーツイベントをサポートしています。
中国及び海外市場でのシェア11連覇を達成したリーダーである騰訊雲の音声・映像機能としては、この動きによって音声・映像機能がエージェントによって統一的にスケジュールされる生産向けツールになることを加速しており、AIエージェント時代における視聴体験の革新を全面的に支援しています。
