9月19日、小米は自社初のネイティブなエンド・トゥ・エンド音声大規模モデル「Xiaomi-MiMo-Audio」をオープンソース化したことを発表しました。このイノベーションは、音声技術分野における大きな飛躍を示しています。5年前にGPT-3が登場し、言語一般人工知能(AGI)の新しい時代を切り開いたように、音声分野では長年、大規模なラベル付きデータに依存してきましたが、言語モデルのような少サンプルでの汎化能力は実現できませんでした。今や、Xiaomi-MiMo-Audioは革新的なプレトレーニングアーキテクチャと数億時間のトレーニングデータを基盤としており、音声分野で初めてIn-Context Learning(ICL)に基づく少サンプルの汎化を達成し、プレトレーニング中に明確な「出現」現象も観測されました。

Xiaomi-MiMo-Audioモデルは複数の標準評価ベンチマークで優れた性能を示しており、同パラメータ量のオープンソースモデルを上回るだけでなく、音声理解ベンチマークMMAUの標準テストセットにおいてGoogleのクローズドソース音声モデルGemini-2.5-Flashを上回り、音声複雑推論ベンチマークBig Bench Audio S2TタスクにおいてOpenAIのクローズドソース音声モデルGPT-4o-Audio-Previewを上回りました。この成果は、小米が音声技術分野で持つ深い実力を示すとともに、音声AIの発展に新たな方向性を提供しています。

微信截图_20250919094548.png

今回のオープンソース化されたXiaomi-MiMo-Audioモデルには、多くの革新と初の突破が含まれています。まず、このモデルは音声の無損失圧縮プリトレーニングを1億時間まで拡張することにより、「横断的汎化性」を「出現」させることを初めて証明しました。これは少サンプル学習能力を示しており、音声分野における「GPT-3の時」と見なされています。次に、小米は音声生成型プリトレーニングの目的と定義を初めて明確にし、無損失圧縮のTokenizer、新規モデル構造、トレーニング方法および評価体系を含む完全な音声プリトレーニング方案をオープンソース化しました。これにより、音声分野における「LLaMAの時」を開きました。さらに、Xiaomi-MiMo-Audioは、思考プロセスを音声理解と音声生成の両方に同時に導入した最初のオープンソースモデルであり、ミックスド思考をサポートします。

小米は、音声研究分野の加速発展を促進するため、シンプルで徹底的で直接的なオープンソーススタイルを採用しています。オープンソース内容には、プリトレーニングモデルであるMiMo-Audio-7B-BaseとインストラクションチューニングモデルであるMiMo-Audio-7B-Instruct、Tokenizerモデル、技術報告書、評価フレームワークが含まれます。MiMo-Audio-7B-Instructモデルは、promptによって「非思考モード」と「思考モード」の切り替えが可能です。強化学習の起点が高く、潜在力が大きく、音声RLやAgenticトレーニングの新しいベースモデルとして活用できます。Tokenizerモデルは12億パラメータを持ち、Transformerアーキテクチャを採用しており、効率と性能の両方を考慮し、最初から訓練されており、千万時間以上の音声データをカバーしています。また、音声再構築タスクと音声からテキストへの変換タスクをサポートしています。技術報告書はモデルとトレーニングの詳細を全面的に紹介しており、評価フレームワークは10以上の評価タスクをサポートし、GitHubにオープンソース化されています。

小米は、Xiaomi-MiMo-Audioのオープンソース化が音声大規模モデル研究を言語大規模モデルに迅速に整合させる上で重要な影響を与えると述べました。これにより、音声AGIの発展に重要な基礎を提供します。小米は継続的にオープンソース化を行い、すべての協力者と一緒になって、オープンと協力を通じて音声AIの「特異点」に向かって進み、未来の人機インタラクションの時代へと進んでいくことを期待しています。

https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct