9月28日、世界最大のAIオープンソースコミュニティであるHugging Faceは新規モデルランクを発表し、アリババの通義(Tongyi)が7つのモデルでグローバルトップ10のオープンソースモデルを独占しました。その中でも最近オープンソース化された全モード大規模モデル「Qwen3-Omni」が首位に躍り出ました。

アリババの通義Qwen

Qwen3-Omniが業界初の突破を実現

Qwen3-Omniはアリババが最新でオープンソース化した全モードの大規模モデルです。音声と動画の処理能力で32のオープンソース最優秀性能SOTAを獲得しました。このモデルはテキスト、画像、音声、動画の4種類のデータを処理でき、人間のように「聞く、話す、書く」ことができます。より重要なのは、Qwen3-Omniが強力な音声と音声・動画の処理能力を持つ一方で、単モードのテキストおよび画像の性能も安定しており、これは業界初の訓練効果です。

これまで複雑な指示をいくつかのモデルを協調して行わなければできなかったものが、今ではQwen3-Omni一つのモデルで実現可能です。これにより、ユーザーとAIとのインタラクション体験が全面的に改善されました。将来的にはこのモデルは自動車、スマートグラス、スマホなどのシナリオに展開される予定です。

通義大規模モデルシリーズがすべて成功

先日の2025年雲栖大会で、アリババは7つのモデルを一挙に発表しました。Qwen3-Omni以外にも、視覚理解モデルのQwen3-VL、画像編集モデルのQwen-Image-Edit-2509、動作生成モデルのWan2.2-Animate、深層研究エージェントモデルのDeepResearchなど、6つの異なるサイズのモデルがHugging Faceのグローバルオープンソースランクのトップ10に選出されました。