MiniMaxは今日、新世代の音声生成モデル「Speech2.5」を発表しました。このアップグレード版モデルは、世界の音声技術分野で新たな基準を設け、世界最大の音声モデルとしての地位をさらに強化しました。Speech2.5は、多言語表現力、音色の再現性、および言語カバー範囲において大幅な向上を遂げています。

今年5月にリリースされたSpeech02と比較して、Speech2.5は多言語表現力において飛躍的な進歩を遂げました。特に中国語では依然として世界最高水準を維持し、英語をはじめとする他の多言語の表現も全体的に向上しています。このモデルは、文字誤認識率、類似度、自然なリズム度などの点で前バージョンを上回り、40の言語間で簡単に切り替えることが可能です。ビジネス会議、日常会話、英語ポッドキャストなど、より自然で滑らかな音声体験を提供し、従来の音声合成でよく見られた「機械的な感じ」を完全に解消します。

微信截图_20250807091241.png

音色の再現性に関しては、Speech2.5は業界の最高峰レベルの精度に達しています。これは、異なる言語間でアクセントを正確に再現し、同じ言語でも地域ごとのアクセントの特徴を保持できるだけでなく、特殊な年齢層の声を正確に再現することも可能です。極限状況や複数言語間の切り替え時でも、高度にリアルな音色の細部を維持できます。例えば、イギリスの女王の有名な発音を使ってSpeech2.5を紹介する場合、モデルはその独自の休止、リズム、発音処理を完璧に再現でき、イタリア語と英語の間で切り替えてもアクセントの特徴を保持することができます。

また、Speech2.5の多言語カバー範囲は、以前のバージョンから大幅に拡大され、40の言語にまで拡張されました。追加された言語には、ブルガリア語、デンマーク語、ヘブライ語、マレー語、ペルシャ語、スロバキア語、スウェーデン語、クロアチア語、フィリピン語、ハンガリー語、ノルウェー語、スロベニア語、カタルーニャ語、ニノスク、タミル語、アフリカーンス語などが含まれます。この拡張により、Speech2.5はグローバルなコンテンツ制作において大きな優位性を持ち、ECサイト、海外展開向けカスタマーサポート、ローカルマーケティングなど、ユーザーが一括で高品質な多言語音声コンテンツを生成することが可能になります。

Speech2.5の登場により、多くの業界で大きな利便性と革新の機会が生まれました。企業顧客にとっては、多言語カスタマーサービスや国際広告のナレーションコストが大幅に削減され、これまで高額な費用と長い時間が必要だったグローバル製品宣伝動画のナレーションは、今では10分で生成できます。クリエイターにとっても、本物のような個人の声線の再現機能により、彼らは世界中のショートビデオのヒット作を作成することが容易になり、「一人が40か国の言葉を話す」という創造的な表現が実現できます。教育者にも恩恵があり、小規模言語の教材作成期間は数週間から10分に短縮され、国際的な方言教材のカスタマイズもより簡単になりました。

Speech2.5は、Speech02の基礎の上にさらにアップグレードされ、世界最高のコストパフォーマンスを引き続き維持しながら、性能もさらに向上しています。現在、MiniMax Speech音声モデルは世界中で広く採用されており、海外のVapi、PipecatなどのAgentプラットフォーム、Hedra、Icon、SyllabyなどのトップAIアプリケーションに加え、国内の高途教育、喜马拉雅、网易、Rokidグラスなどの主要プラットフォームや製品もMiniMax Speechに統合しています。

MiniMaxオープンプラットフォーム:

minimaxi.com/platform_overview

MiniMax Audio:

minimaxi.com/audio