最近、世界中の音声認識技術が急速に発展する中、通義千問は今日、最新の音声認識モデルであるQwen3-ASR-Flashを正式リリースしました。このモデルはQwen3ベースモデルをもとに、膨大なマルチモーダルデータおよび数千万時間分のオート音声認識(ASR)データで訓練されており、ユーザーに高精度で耐障害性の高い音声認識ソリューションを提供することを目的としています。

Qwen3-ASR-Flashの主な特徴には、先進的な認識精度と驚くべき歌詞認識能力が含まれます。このモデルは、複数の中国語・英語および多言語のベンチマークテストで優れた性能を示しており、特に歌詞認識をサポートする面では実測誤り率が8%以下となっています。これは、純粋な歌い方やバックグラウンドミュージック付きの曲でも、Qwen3-ASR-Flashが効果的に認識し、転記できるということを意味しています。
もう一つの顕著な特徴はカスタマイズ可能な認識能力です。ユーザーは任意の形式でテキストの文脈を提供することができます。モデルはそれらをスマートに認識し、名前エンティティやキーワードを一致させ、パーソナライズされた認識結果を出力します。この機能により、Qwen3-ASR-Flashは複雑な文脈においてより柔軟性と適応性を持つようになります。
さらに、Qwen3-ASR-Flashは11種類以上の言語および多様な方言やイントネーションをサポートし、正確な転記を実現できます。対応言語には普通話および主要な方言(四川語、広東語など)、イギリス英語とアメリカ英語、フランス語、ドイツ語、ロシア語、イタリア語、スペイン語、日本語、韓国語、アラビア語などが含まれます。これにより、ユーザーはより幅広い選択肢を得ることができ、異なる地域や言語を使用する人々のニーズに応えます。

Qwen3-ASR-Flashは、長文や文内の言語切り替え、複雑な音響環境でも高精度を維持する強靭な耐障害性を持っています。静音や背景ノイズなどの非音声セグメントを効果的にフィルター処理し、ユーザーが最高の音声認識体験を得られるようにします。
通義千問は、Qwen3-ASR-Flashの強力な機能を体験してもらうために、ModelScope、HuggingFace、アリババクラウド百煉APIなどの複数のプラットフォーム上で利用方法を提供しています。ユーザーは簡単にこのモデルを試すことができます。
今後、通義千問はQwen3-ASR-Flashを継続的にアップデートし、認識精度を向上させ、より多くの機能を開発していく予定です。ユーザーにより知的で効率的な音声から文字への変換サービスを提供することを目指しています。この技術革新を通じて、通義千問は音声認識分野においてより広範な未来を開拓したいと考えています。
