このたび、ステップスターリングは最新のオープンソースのエンドツーエンド音声大規模モデル「Step-Audio2mini」を正式にリリースしました。このモデルは複数の国際ベンチマークテストで優れた成績を収め、SOTA(最高度の技術)を達成し、注目を集めています。Step-Audio2miniは音声理解や音声生成の能力が高く、初めて音声推論と生成を統一的にモデリングし、音声認識、多言語翻訳、感情解析などのさまざまな応用シーンに対して優れた解決策を提供しています。

Step-Audio2miniの特徴の一つは、優れたマルチモーダル音声理解能力です。MMAU(マルチモーダル音声理解テストデータセット)において、73.2というスコアでオープンソース音声モデルのトップを維持しています。口語会話能力のURO Benchテストでは、ベーシックコースとプロコースの両方でオープンソースモデルの中で最高点を獲得し、会話理解と表現能力の高さを示しています。

image.png

中英相互翻訳タスクにおいてもStep-Audio2miniは優れたパフォーマンスを発揮しています。CoVoST2およびCVSS評価データセットにおいて、それぞれ39.3および29.1の高いスコアを記録し、GPT-4o Audioや他のオープンソース音声モデルを大きく上回っています。また、音声認識分野でも突出した性能を発揮しており、オープンソース中国語テストデータセットにおける文字誤り率(CER)は3.19、オープンソース英語テストデータセットにおける単語誤り率(WER)は3.50であり、他のオープンソースモデルを15%以上上回っています。

image.png

Step-Audio2miniの成功にはそのイノベーティブなアーキテクチャ設計が不可欠です。このモデルは従来のASR(自動音声認識)、LLM(大規模言語モデル)、TTS(テキストから音声への変換)の3段構造を打ち破り、原始的な音声入力から音声応答出力への直接的な変換を実現し、アーキテクチャを簡略化し、遅延を低減しています。さらに、チェーン・オブ・タイム(CoT)推論と強化学習の共同最適化技術を導入することで、感情やトーンなどの副言語情報をよりよく理解し、自然に反応できるようになりました。

注目すべきは、Step-Audio2miniが音声知識拡張機能をサポートしていることです。外部ツールを利用してネットワーク検索を行うことができ、伝統的なモデルで問題となっていた幻覚の問題を解決します。このイノベーションにより、モデルの実用性が向上し、さまざまなシナリオでの応用可能性が広がりました。

現在、Step-Audio2miniはGitHub、Hugging Faceなどのプラットフォームで公開されており、開発者の皆様のご利用とコードの貢献をお待ちしております!