9月1日、ステップスターラン(Step-Star)は、最も強力なオープンソースのエンド・トゥ・エンド音声大規模モデル「Step-Audio2mini」を正式に発表しました。このモデルは複数の国際ベンチマークテストセットでSOTA(State-of-the-Art)の成績を収め、音声理解、音響推論および生成を統一的にモデリングし、音響理解、音声認識、多言語翻訳、感情および副言語解析、音声対話などのタスクにおいて優れた性能を発揮します。また、音声ネイティブなツールコール機能を最初にサポートし、インターネット検索などの操作が可能です。Step-Audio2miniは「聞き取れ、考えられ、自然に話せる」と評価されており、現在GitHubやHugging Faceなどにアップロードされ、ユーザーがダウンロードや試用、フィードバックを行うことができます。
Step-Audio2miniは複数の重要なベンチマークテストでSOTAの成績を収め、音響理解、音声認識、翻訳、対話シーンにおいて優れた性能を発揮しています。これはQwen-OmniやKimi-Audioなどのすべてのオープンソースエンド・トゥ・エンド音声モデルよりも性能が高く、多くのタスクにおいてGPT-4o Audioを上回っています。一般的なマルチモーダル音響理解テストセットであるMMAUでは、Step-Audio2miniは73.2というスコアでオープンソースエンド・トゥ・エンド音声モデルの中でトップとなりました。口語対話能力を測定するURO Benchでは、Step-Audio2miniはベーシックとプロのカテゴリでオープンソースエンド・トゥ・エンド音声モデルの最高スコアを獲得しました。中英互訳タスクでは、CoVoST2およびCVSSの評価セットでそれぞれ39.3および29.1のスコアを記録し、GPT-4o Audioや他のオープンソース音声モデルを大きく上回りました。音声認識タスクでは、多言語および多地方言で第1位を獲得し、オープンソース中国語テストセットの平均CER(文字誤り率)は3.19、オープンソース英語テストセットの平均WER(単語誤り率)は3.50で、他のオープンソースモデルより15%以上優れています。

Step-Audio2miniは、革新的なアーキテクチャ設計により、これまでの音声モデルに存在した問題を効果的に解決し、「頭と心」の両方を動かすことができました。真のエンド・トゥ・エンドマルチモーダルアーキテクチャを採用し、従来のASR+LLM+TTSの3段階構造を突破し、原始的な音声入力から音声出力への直接変換を実現しました。アーキテクチャはよりシンプルで遅延が低く、副言語情報や非人間の音声信号を効果的に理解することができます。さらに、Step-Audio2miniはエンド・トゥ・エンド音声モデルで初めてチェーン・オブ・シンキング(CoT)と強化学習の共同最適化を導入し、感情、トーン、音楽などの副言語および非音声信号を正確に理解・推論し、自然な返答を可能にします。モデルはWeb検索などの外部ツールもサポートしており、幻覚問題を解決し、モデルの多様なシナリオでの拡張性を提供します。
Step-Audio2miniの能力はケーススタディで生きた形で示されています。自然の音や高度な吹き替えを正確に識別でき、リアルタイムで業界の最新情報を検索できます。また、Step-Audio2miniは語速を制御し、さまざまなシナリオにおける対話ニーズに簡単に応えられます。哲学的難問について質問された場合、Step-Audio2miniは抽象的な問題を極めて簡潔な方法論に転換し、強力な論理的推論能力を示します。
GitHub:https://github.com/stepfun-ai/Step-Audio2
Hugging Face:https://huggingface.co/stepfun-ai/Step-Audio-2-mini
ModelScope:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini
