アリババ・チュンイーは新世代のエンド・トゥ・エンド音声認識大規模モデル「Fun-ASR」を正式に発表しました。このモデルは文脈を感知する能力と高精度な転写能力を強化し、住宅リフォームや保険などの垂直業界で音声認識の正確率が15%以上も飛躍的に向上しました。実測データによると、保険業界では前世代比で18%の向上、住宅リフォームや畜産などの分野では15〜20%の増加を記録しています。
大規模言語モデルを駆動とする音声認識アルゴリズムとして、Fun-ASRは自社開発の音声アルゴリズムとQwen3に基づく監督微調整技術を採用し、最新のモデルアーキテクチャーやテキストモダリティの整合技術を組み合わせています。言語処理の優位性を維持しつつ、RAG検索強化ソリューションを統合し、1,000以上のカスタムホットワードのインポートをサポートします。この機能は、音声中の業界用語や過去のドキュメント、文脈情報を自動的にマッチングし、特定のシナリオにおけるキーワード認識効果を大幅に改善します。

音声認識におけるノイズ干渉、言語混同、生成幻覚などの課題に対し、研究開発チームは強化学習(RL)技術を独自に導入し、動的な最適化戦略によって認識誤差を減らし、システムの安定性と信頼性を本格的に向上させました。注目すべきは、四川語、広東語、福建南部語などの方言認識において、類似製品よりも優れた性能を示していることです。また、遠距離拾音や近距離ノイズキャンセリングなど複雑な音響環境にも対応し、会議室、オフィス、スーパーマーケット、屋外など多様なシナリオをカバーしています。
トレーニングデータの面では、Fun-ASRは何億時間もの音声データを基盤に構築され、インターネット、テクノロジー、畜産、自動車など十数分野の専門用語ライブラリーを深く統合しています。このデータの優位性により、垂直業界での認識において顕著な優位性を発揮し、例えば畜産業では動物の鳴き声や環境ノイズの中での重要な指示を正確に識別できます。
アリババ・チュンイーの技術チームは、Fun-ASRの進化が音声認識技術が一般的なシナリオから専門的かつシナリオ特化型へと深く浸透する新たな段階を示していると述べました。モデルがより多くの業界で導入されるにつれて、動的なホットワードの更新とマルチモーダル相互作用の能力がさらに音声インタラクションの効率革新を推進していくでしょう。
