アマゾン、100以上の言語に対応する新しいASRシステムを発表


科大訊飛は2025年1024開発者祭でAIソフトウェア・ハードウェア統合ソリューションを発表し、アルゴリズムとハードウェアの深く融合することで、高ノイズや遠距離などの複雑な環境下での認識問題を解決し、音声および視覚のインテリジェンスの精度を向上させ、この分野における重要な進展を示した。
阿里通义QwenチームがオープンソースのPythonコマンドラインツール「Qwen3-ASR-Toolkit」をリリース。音声/動画の高速文字起こしを可能にし、大規模処理を支援。Qwen3-ASR-Flashの3分制限を突破し、時間単位の処理が可能に。....
最近、アリババTongyiラボは最新のエンドツーエンド音声認識大規模モデルである「FunAudio-ASR」を正式に公開しました。このモデルの最大の特徴は、革新した「Contextモジュール」により、高ノイズ環境下での音声認識精度が大幅に向上したことです。幻覚率は78.5%から10.7%にまで急激に低下し、約70%の減少となりました。この技術的突破は、音声認識業界に新たな基準を示し、特に会議や公共の場など騒がしい状況においても非常に適しています。FunAudio-AS
最近、OpenAI の Evals ツールは画期的な大きなアップデートを遂げ、ネイティブ音声入力および評価機能が追加されました。この革新により、開発者は音声認識および生成モデルのテストと最適化において、単純なテキスト変換プロセスを経ることなく、直接音声ファイルを使用して評価できるようになりました。この変化により、評価プロセスが大幅に簡素化され、音声アプリケーションの開発がより効率的になりました。これまでの評価プロセスでは、開発者が音声コンテンツをまずテキストに変換する必要があり、これは時間がかかり、手間がかかり、また影響を与える可能性がありました。
先日、通義大モデルはCoGenAVを公開しました。これは音声と映像の同期という新しいアイデアに基づき、音声認識技術を革新しました。従来の音声認識はノイズ環境下でのパフォーマンスに課題がありましたが、CoGenAVは代わりに音声-映像-テキスト間の時系列対応関係を学習し、より堅牢で汎用的な音声表現フレームワークを構築しました。これにより音声認識タスク(VSR/AVSR)、音声復元タスク(AVSS/AVSE)、音声同期タスク(A'