ステップ音声モデルが世界評価でトップ3にランクインし、中国の大規模モデルの音声品質を新たな高みに押し上げた

最新版の世界的なTTS（音声合成）評価ランキング「Artificial Analysis Speech Arena Leaderboard」において、中国のステップフン（StepFun）が強力な実力を示しました。その音声生成モデル「StepAudio2.5TTS」は、優れた聴感表現で世界トップ3にランクインし、現在このランキングで最も高い順位を獲得した中国の大規模モデル製品となっています。

従来のラボデータ指標とは異なり、このランキングではより厳しい「ブラインドテストEloスコアリング方式」が採用されています。この方式では、ユーザーがモデルの身分を知らない状態で、同一のテキストから生成された2つの音声を主観的に聴感評価します。テストシーンにはオンラインカスタマーサービス、知識共有、デジタルアシスタント、エンタメインタラクションなどのリアルな生活の場面が含まれています。ステップフンの勝利は、その生成された音声が現実的なユーザーからのフィードバックにおいてより「人間らしい」ものであることを意味し、トーンの自然さや表現の感染力において国際的な最高峰の競争力を持っていることを示しています。

現在、ステップフンはStepAudio2.5シリーズの全フローモデルを一気にリリースしており、音声生成を行うTTS、高精度認識を特長とするASR、そして最新登場のRealtimeリアルタイム対話モデルが含まれます。其中、Realtimeモデルは特に「生きているような感覚」の創造に重点を置き、最高レベルの副言語能力と数百万人のキャラクター設定のカスタマイズ機能を通じて、ユーザーに温度を感じる、魂のあるAIチャットパートナーを作り出すことを目指しています。

実際に、この会社は音声AI分野での展開をすでに広げています。そのオープンソースのオリジナル推論モデル「Step Audio R1.1」は、別の世界的な音声推論ランキングで4か月連続第1位を維持しています。また、もう一つのオープンソースの感情スタイル編集モデル「Step Audio EditX」は、わずか3秒の素材で高品質な音色の再現が可能であり、非常に高い技術的効率を示しています。

小米が全ラウンド音声大モデル MiMo-V2.5 を発表。TTSで1つの文で新しいボイドを生成可能。ASRは方言と多言語の混在に対応し、オープンソースをサポート

小米がMiMo-V2.5全リンク音声モデルシリーズを発表。TTSモデル3種とオープンソースASRモデル1種を含み、音声入力と出力をカバー。TTSモデルは感情、トーン、役割を正確に制御し、音声のプログラミング、創作、複製を可能にし、人機対話の自然さを向上させ、音声インテリジェンスの新時代を切り開く。....

小米 MiMo-V2.5の衝撃的なベータテスト：4.3時間で手作業でコンパイラを作成、長距離スマートエージェントが満点の飛躍を遂げる

小米はMiMo-V2.5シリーズの大モデルを発表し、MiMo-V2.5、V2.5-Proおよび対応するTTSとASRモデルを含んでおり、モデルが「使える」から「使いやすい」へと進化したことを示している。その中でもエース型のMiMo-V2.5-Proは、一般的なスマートエージェント機能とソフトウェアエンジニアリングにおいて、Claude Opus4.6やGPT-5.4などのトップモデルと競合できる水準に達しており、主な強みは高い指示従従性と自己修正能力である。

小米が本格的にオープンソース！OmniVoiceは600種以上の言語をカバーし、ゼロサンプルの音声クローンTTS：WERは0.84%に達し、40倍速く動作し、小語種も簡単に復活

小米KaldiチームがOmniVoiceモデルをオープンソースした。600種以上の言語をサポートし、中国語および多言語TTSの基準テストで多数の指標がSOTAを達成した。中国語のWERは0.84%に至り、多言語性能は主流の商用モデルを超え、音声合成における新たな突破を遂げた。

ロボットが話せるようになった！ZhiyuanとMiniMaxが協力して、一人ひとりに合わせた特注の人物設定をカスタム制作

MiniMaxはZhiyuanロボットと戦略的協力を開始し、そのすべての段階においてAI技術支援を提供し、体現的な知能を「ハードな運動」から「感情のインタラクション」へと進化させることを推進しました。協力の重点は、Zhiyuanロボットのために深くカスタマイズされたインタラクティブシステムを開発することにあり、それには専用の人間的性格体系が含まれており、ロボットの感情的なインタラクション能力を向上させます。

ステップ音声モデルが世界評価でトップ3にランクインし、中国の大規模モデルの音声品質を新たな高みに押し上げた

関連推奨

小米が全ラウンド音声大モデル MiMo-V2.5 を発表。TTSで1つの文で新しいボイドを生成可能。ASRは方言と多言語の混在に対応し、オープンソースをサポート

小米 MiMo-V2.5の衝撃的なベータテスト：4.3時間で手作業でコンパイラを作成、長距離スマートエージェントが満点の飛躍を遂げる

小米が本格的にオープンソース！OmniVoiceは600種以上の言語をカバーし、ゼロサンプルの音声クローンTTS：WERは0.84%に達し、40倍速く動作し、小語種も簡単に復活

5万匹のステップカニが完売　ステップスターライトが急きょ追加供給

ロボットが話せるようになった！ZhiyuanとMiniMaxが協力して、一人ひとりに合わせた特注の人物設定をカスタム制作

ステップ音声モデルが世界評価でトップ3にランクインし、中国の大規模モデルの音声品質を新たな高みに押し上げた

関連推奨

小米が全ラウンド音声大モデル MiMo-V2.5 を発表。TTSで1つの文で新しいボイドを生成可能。ASRは方言と多言語の混在に対応し、オープンソースをサポート

小米 MiMo-V2.5の衝撃的なベータテスト：4.3時間で手作業でコンパイラを作成、長距離スマートエージェントが満点の飛躍を遂げる

小米が本格的にオープンソース！OmniVoiceは600種以上の言語をカバーし、ゼロサンプルの音声クローンTTS：WERは0.84%に達し、40倍速く動作し、小語種も簡単に復活

5万匹のステップカニが完売 ステップスターライトが急きょ追加供給

ロボットが話せるようになった！ZhiyuanとMiniMaxが協力して、一人ひとりに合わせた特注の人物設定をカスタム制作

5万匹のステップカニが完売　ステップスターライトが急きょ追加供給