このたび、ステップスターランチは新世代のリアルタイム音声大モデル「StepAudio 2.5 Realtime」を正式リリースしました。このモデルはすでに全面的にリリースされており、開発者はステップスターランチのオープンプラットフォームを通じて接続できます。StepAudio 2.5 Realtimeは、ユーザーにより現実的な会話体験を提供することを目的としており、副言語の認識、キャラクターのカスタマイズ、および会話能力の面で全体的な技術的向上を図っています。

StepAudio 2.5 Realtimeのコアな革新点は、副言語情報の処理能力です。副言語にはトーン、スピード、間の取り方、ため息や笑いなどの非言語的な表現が含まれます。これらの細かい点は感情を伝えるために重要です。これらの要素を分析することで、モデルはユーザーの感情と潜在的な意図を感知でき、例えば低く沈んだトーンから疲労を識別したり、急なスピードからイライラを判断し、それに応じて返答のトーンと戦略を動的に調整し、会話の自然さを高めることができます。
キャラクターのカスタマイズに関しては、StepAudio 2.5 Realtimeは開発者にとって柔軟な調整を可能にしています。ユーザーはAPIを介してAIキャラクターの性格特徴、バックグラウンド、言語習慣などを調整できます。このモデルは10,000以上の高品質なオリジナルキャラクターに基づいており、アルゴリズムにより百万以上のキャラクターフィーチャーマトリクスを作成し、大量の本物の会話データでトレーニングされています。開発チームは強化学習の最適化を行っており、極端な状況下でも安定したキャラクターの一貫性を確保しています。さらに、モデルには5つのプレセットのキャラクターが内蔵されており、ユーザーが直接体験できます。
全体的な会話能力において、StepAudio 2.5 Realtimeは知能と感情知性の両方の向上を強調しています。複雑な意味を深く理解し、コミュニケーション中のさまざまな状況に対応できるだけでなく、多分野の知識を呼び出して、より深い会話体験を提供します。これは感情交流のチャットパートナーとしてだけでなく、専門的なHRのように面接など正式な場面をシミュレートするにも適しています。
公式最新の評価データによると、このモデルは5つのテスト項目で優れたパフォーマンスを示しており、特にユーザー体験スコアにおいて、StepAudio 2.5 Realtimeのスコアは80.41に達し、他の同種製品であるGPT-Realtime-1.5やGemini Liveよりも顕著に高いことを示しています。これにより、その強力な性能と応用可能性が示されています。
重要なポイント:
🌟 StepAudio 2.5 Realtimeは高度な副言語処理能力を持ち、ユーザーの感情を正確に感知できます。
🎭 ユーザーはAPIを介してAIキャラクターの性格と背景をカスタマイズでき、インタラクションの個別化を高めます。
📊 公式の評価では、このモデルは多くのテスト項目で優れた結果を示しており、他製品よりはるかに高いスコアを記録しています。
