この度、ムーアセラード社は、同社が開発した音声理解大規模モデル「MooER(ムーア)」を正式にオープンソースとして公開することを発表しました。これは業界初の、国産フル機能GPUを用いてトレーニングと推論が行われた大規模オープンソース音声モデルであり、ムーアセラード社の人工知能分野における最新の成果を示しています。

MooER大規模モデルは、ムーアセラード社の夸娥(KUAE)智算プラットフォーム上で、わずか38時間で5000時間分の音声データと疑似ラベルのトレーニングを完了しました。この成果は、同社独自の革新的アルゴリズムと高効率な計算資源の組み合わせによるものです。MooERは、中国語と英語の音声認識をサポートするだけでなく、中国語から英語への音声翻訳機能も備えており、複数の音声認識分野のテストセットで優れた性能を示しています。特に、Covost2の中国語から英語への翻訳テストセットでは、MooER-5Kが25.2のBLEUスコアを獲得し、実用レベルに近い性能を実現しています。

微信截图_20240826083635.png

ムーアセラード社のAIチームは、推論コードと5000時間分のデータでトレーニングされたモデルをオープンソースとして公開し、さらにトレーニングコードと8万時間分のデータでトレーニングされたモデルのオープンソース化も予定しています。MooERのモデル構造は、Encoder、Adapter、Decoderの3つの部分から構成されており、オープンソースのParaformer音声エンコーダーとQwen2-7B-instruct大規模言語モデルを使用してEncoderとLLMモジュールを初期化しています。

技術比較において、MooER-5Kは中国語と英語のテストセットにおいて、他のオープンソースモデルを上回る性能を示しました。ムーアセラード社はこのオープンソースプロジェクトを通じて、データ資源と計算資源が限られている開発者にとって貴重な参考資料とサポートを提供します。

GitHub:https://github.com/MooreThreads/MooER