Metaの基礎人工知能研究チーム(FAIR)は最近、1600種類以上の言語の口語を変換できる自動音声認識システム「Omnilingual ASR」をリリースしました。これまで多くの音声認識ツールは数百種類のリソースが豊富な言語に焦点を当てており、世界で7000種類以上ある言語のうち数千種類はAIによるサポートがほとんどありませんでした。

image.png

Omnilingual ASRのリリースはこの空白を埋めるためのものです。Metaによると、サポートされている1600種類の言語の中には500種類がどのAIシステムでもカバーされていませんでした。FAIRチームはこのシステムを通じて、「汎用的な変換システム」に向かって進み、世界的な言語の障壁を打破することを目指しています。

このシステムの正確性は利用可能なトレーニングデータに依存します。Metaによると、テストされた1600種類の言語の中で、78%の言語の文字誤り率が10未満です。少なくとも10時間のトレーニングオーディオがある言語では、95%がこの基準を達成しています。また、トレーニングオーディオ時間が10時間未満の「低リソース」言語においても、36%の言語の文字誤り率が10未満でした。

さらに研究や実際の応用を支援するために、MetaはOmnilingual ASRコーパスを公開しました。これは350種類の代表されない言語の転記音声を含む大規模なデータセットです。これらのデータは知識共有(CC-BY)ライセンスによって提供され、開発者や研究者が特定の地方のニーズに合わせて音声認識モデルを構築または調整するのに役立つことを目的としています。

Omnilingual ASRの重要な特徴の一つは「自身の言語」オプションです。これは文脈学習の方法を採用しています。ユーザーは少量のペアリングされたオーディオとテキストのサンプルを提供するだけで、システムはこれらの例から直接学習し、再トレーニングや大量の計算リソースを必要としません。Metaによると、この方法は理論上、Omnilingual ASRを5400種類以上の言語に拡張可能であり、現在の業界標準をはるかに超えています。ただし、サポート不足の言語では識別品質が完全にトレーニングされたシステムレベルに達していないものの、以前から音声認識技術にアクセスできなかったコミュニティにとって現実的な解決策を提供しています。

MetaはOmnilingual ASRをオープンソースプロジェクトとしてリリースし、Apache2.0ライセンスに基づいています。研究者や開発者は、商業用途を含め、モデルを自由に使用・修正・構築できます。このモデルシリーズは、3億パラメータの軽量版から70億パラメータの最高精度版までをカバーしています。すべてのモデルはFAIRのPyTorchフレームワークに基づいており、ユーザーは公式ウェブサイトでデモを試すこともできます。

デモ: https://aidemos.atmeta.com/omnilingualasr/language-globe

ポイント:

🌍  MetaはOmnilingual ASRシステムをリリースし、1600種類以上の言語の音声認識をサポートしており、AIにおける言語認識の空白を埋めることが目的です。

📊  システムの正確性はトレーニングデータに依存しており、サポートされている大部分の言語では文字誤り率が10未満で、一部の低リソース言語でも顕著な性能を示しています。

📦  Omnilingual ASRはオープンソースプロジェクトであり、豊富なデータセットを提供し、開発者が地域のニーズに応じたモデルの構築をサポートしています。