最新版の世界的なTTS(音声合成)評価ランキング「Artificial Analysis Speech Arena Leaderboard」において、中国のステップフン(StepFun)が強力な実力を示しました。その音声生成モデル「StepAudio2.5TTS」は、優れた聴感表現で世界トップ3にランクインし、現在このランキングで最も高い順位を獲得した中国の大規模モデル製品となっています。
従来のラボデータ指標とは異なり、このランキングではより厳しい「ブラインドテストEloスコアリング方式」が採用されています。この方式では、ユーザーがモデルの身分を知らない状態で、同一のテキストから生成された2つの音声を主観的に聴感評価します。テストシーンにはオンラインカスタマーサービス、知識共有、デジタルアシスタント、エンタメインタラクションなどのリアルな生活の場面が含まれています。ステップフンの勝利は、その生成された音声が現実的なユーザーからのフィードバックにおいてより「人間らしい」ものであることを意味し、トーンの自然さや表現の感染力において国際的な最高峰の競争力を持っていることを示しています。

現在、ステップフンはStepAudio2.5シリーズの全フローモデルを一気にリリースしており、音声生成を行うTTS、高精度認識を特長とするASR、そして最新登場のRealtimeリアルタイム対話モデルが含まれます。其中、Realtimeモデルは特に「生きているような感覚」の創造に重点を置き、最高レベルの副言語能力と数百万人のキャラクター設定のカスタマイズ機能を通じて、ユーザーに温度を感じる、魂のあるAIチャットパートナーを作り出すことを目指しています。
実際に、この会社は音声AI分野での展開をすでに広げています。そのオープンソースのオリジナル推論モデル「Step Audio R1.1」は、別の世界的な音声推論ランキングで4か月連続第1位を維持しています。また、もう一つのオープンソースの感情スタイル編集モデル「Step Audio EditX」は、わずか3秒の素材で高品質な音色の再現が可能であり、非常に高い技術的効率を示しています。
