StepFun AI は近日、オープンソースの音声編集モデル「Step-Audio-EditX」をリリースしました。この革新的な3Bパラメータモデルにより、音声編集の操作がテキスト編集のように直接的で制御可能になります。音声信号の編集タスクを文字単位のトークン操作に変換することで、表現性のある音声編集がより簡単になります。

現在、ほとんどのゼロショットテキストから音声(TTS)システムは感情、スタイル、アクセント、音色の制御において限界があります。これらは自然な音声を生成できますが、ユーザーのニーズに正確に合わせることができません。過去の研究では、これらの要因を分離するために追加のエンコーダーと複雑なアーキテクチャを試みましたが、Step-Audio-EditX はデータとトレーニング目標の調整によって制御を実現します。

image.png

Step-Audio-EditX は二つのコードブックを持つトークナイザを使用しており、音声を二つのトークンストリームにマッピングします。一つは16.7Hzの速度で記録される言語ストリームで、もう一つは25Hzの速度で記録される意味ストリームです。このモデルはテキストと音声トークンの混合コーパスでトレーニングされており、テキストと音声トークンの両方を処理できるようにしています。

このモデルの鍵は、大マージン学習の方法を採用することです。後続のトレーニングフェーズでは、合成された大マージントリプルとクアドを活用してモデルの性能を向上させています。約60,000人の話者の高品質なデータを使用することで、モデルは感情やスタイルの編集において優れた性能を発揮します。さらに、モデルは人間による評価と好みのデータを使って強化学習を行い、音声生成の自然さと正確性を向上させています。

image.png

モデルの効果を評価するために、研究チームは「Step-Audio-Edit-Test」ベンチマークを導入し、Gemini2.5Proを評価ツールとして使用しました。テスト結果によると、複数回の編集を経て、モデルは感情と話し方の正確性が顕著に向上しました。また、Step-Audio-EditX は他のクローズドソース TTS システムの音声品質を効果的に向上させ、音声編集の研究に新たな可能性をもたらします。

論文:https://arxiv.org/abs/2511.03601

ポイント:  

🎤 **StepFun AI が Step-Audio-EditX モデルをリリースし、音声編集を簡便にします。**  

📈 ** このモデルは大マージン学習を採用し、感情とスタイルの編集の正確性を向上させます。**  

🔍 ** Step-Audio-Edit-Test ベンチマークを導入し、音声品質の評価を大幅に改善します。**