【AIbase報道】 Metaの基礎人工知能研究(FAIR)チームは最近、Omnilingual ASRを発表しました。これは1600種以上の話されている言語を変換できる革新的な自動音声認識システムで、現状のAIツールの言語カバー範囲に大きなギャップがあることを補うため、正式に「汎用変換システム」への目標に向かって進んでいるものです。

長期間にわたり、多くの音声認識システムは少数の大量の音声データを持つ言語に焦点を当ててきました。その結果、世界中の7000種以上の言語の中で数千種がほぼAIの支援を受けられない状態となっていました。Omnilingual ASRの登場により、この状況が変わります。Metaによると、サポートされている1600種の言語の中には、500種の言語がこれまで誰もAIシステムでカバーされていなかったとされています。

コアの特徴:精度と拡張性の両立

Omnilingual ASRの性能は目を見張るものがあります:

  • テストされた1600種の言語において、システムは78%の言語で10文字以下の誤り率を達成

  • 10時間以上のトレーニング音声データがある「リソース豊富な言語」では、この正確性基準が95%のカバー率に達しています。

  • 音声の長さが10時間未満の「低リソース言語」でも、36%の言語が10文字以下のしきい値を超えていない誤り率を示しており、これらの言語に実用的な音声認識機能を提供しています。

文脈学習:5400種以上の言語へカバー範囲の拡大

Omnilingual ASRの重要なイノベーションの一つは、「自身の言語」オプションです。この機能は大規模言語モデルの文脈学習技術を参考にしています。ユーザーが少量の音声とテキストのペアサンプルを提供するだけで、システムはこれらのサンプルから直接新しい言語を学習でき、再トレーニングや大量の計算リソースを必要としません

Metaは、この方法によりOmnilingual ASRのカバー範囲を理論上5400種以上の言語まで広げられる可能性があると述べています。これは現在の業界標準を大きく超えています。

オープンソースエコシステムと研究支援

さらなる研究と応用を支援するために、Metaは包括的なオープンソース戦略を採用しています:

  1. モデルの公開: Omnilingual ASRはApache 2.0ライセンスで公開され、研究者や開発者が自由に使用・修正・モデル構築が可能で、商業用途にも利用できます。モデルはPyTorchのfairseq2フレームワークに基づいており、低消費電力デバイスに適した3億パラメータバージョンから「最高の正確度」を目指す70億パラメータバージョンまでの選択が可能です。

  2. データセットの公開: Metaは同時に全言語自動音声認識コーパス(Omnilingual ASR Corpus)を公開しました。これは350種類の代表的不足言語を含む大型の転記音声データセットであり、**知識共有署名許諾(CC-BY)**で公開されています。これは世界中の開発者が音声認識モデルを調整し、特定のローカライズニーズに対応できるようにすることを目的としています。

Omnilingual ASRの登場は、グローバルな言語の壁を打ち破る重要な一歩であり、グローバルな言語平等とAI技術の公平化の道を開きました。