最近、アリババのDingTalkとTongyiラボの音声チームは、新世代の音声認識大規模モデル「Fun-ASR」を共同で発表しました。このモデルは優れた音声認識能力を持ち、インテリア装飾や畜産などの10業界の専門用語を理解でき、企業のニーズに合わせたカスタムモデルのトレーニングも可能です。
Fun-ASRは両社の深い協力によって開発されたもので、さまざまな音声信号を正確に転写できるほか、多業界の専門用語の識別、異なる言語や訛りの処理が可能です。また、文脈情報を組み合わせてより正確な音声転記を行うこともできます。企業が特定のシナリオで必要な要件を十分満たすために、Fun-ASRは企業が自社のビジネス特性に応じてモデルをカスタムトレーニングすることが可能となっています。

現在、Fun-ASRはDingTalkの複数の機能モジュールに統合されており、会議の字幕・通訳、スマートな要約、音声アシスタントなどが含まれます。これらの機能は、企業に安定的で効率的かつ拡張性のある音声認識基盤を提供することを目的としています。特に、文脈の理解や認識精度が高いことが求められる企業向けのシナリオに適しています。
Fun-ASRはすでにかなり強力な機能を備えていますが、その潜在能力はまだ完全に引き出されていません。今後、DingTalkとTongyiラボは方言認識、ノイズ耐性、多言語サポートおよび企業向けの深いカスタマイズなどについてさらに探求し、改善を続けていく予定です。こうした継続的な努力を通じて、両社は音声転記の正確さと実用性をさらに向上させ、企業の業務シナリオのスマート化を推進したいと考えています。
ポイント:
- 🎤 DingTalkとTongyiラボが発表したFun-ASR音声認識大規模モデルは、多業界の専門用語を理解できます。
- 📊 Fun-ASRはDingTalkの様々な機能に統合されており、企業向けのカスタムトレーニングをサポートします。
- 🚀 両社は今後、Fun-ASRの方言認識やノイズ耐性などの能力をさらに向上させる予定です。
