AIの音声が単に「聞こえる・話せる」にとどまらなくなって、演出家のように感情やトーン、役割を正確に調整できるようになった今、人間と機械のインタラクションは新たな時代へと進んでいます。小米は今日、MiMo-V2.5フルスパイラル音声モデルシリーズを正式に発表しました。このシリーズには3つのTTS(音声合成)モデルと1つのオープンソースASR(音声認識)モデルが含まれており、エージェント時代における音声入力と出力を全面的にカバーし、音声を実際にプログラマブルで創造可能、再現可能な知能メディアとして実現します。

🎙️ TTSの三大モデル:音声は今や「あなたの指揮に従う」
小米が今回発表したMiMo-V2.5-TTSシリーズは、「言語が制御」という音声生成の新しいスタイルを初めて実現しています:
MiMo-V2.5-TTS: 高品質な多数の音色が内蔵されており、自然言語の指示によって速度、感情、トーンなどの細かいパラメータを調整できます。ユーザーはパラメータを入力する必要はありません。俳優に台詞を言うように説明すれば良いのです。「優しくも確かなトーンで、少し遅いスピードで、疲れた感じを含めてください」というような指示で、モデルが正確に演じてくれます。
MiMo-V2.5-TTS-VoiceDesign: 一文で新しい音色を作成——「30歳の知的女性の声で、軽い南方訛りがあり、経済ニュースの解説に向いています」と入力すると、システムは即座に専用の声を作成し、音色の創作のハードルを大幅に下げます。
MiMo-V2.5-TTS-VoiceClone: たったわずかなサンプル(例えば30秒の音声)があれば、高精度にターゲットの声を再現できます。また、スタイルの指示やオーディオタグへの反応能力も保持しており、バーチャルDJや個別アシスタントなどのシーンに適しています。
さらに画期的なのはその階層化された演出原稿メカニズムです。有声劇やゲームのNPCなど、一貫性が必要なシーンでは、開発者は「役割の身分」「場面の雰囲気」「1文ごとの演技指導」をそれぞれ定義できます。各層は独立して更新されますが、協働して出力されるため、キャラクターの声が一貫して保たれ、1文ごとに変化があることが確保されます。
また、モデルは行内オーディオタグ(例:[emotion: excited])をサポートしており、テキストの任意の場所に複数のタグを組み合わせて挿入することが可能です。これにより、複雑な感情の編集が可能になります。純粋なテキストで何のヒントもない場合でも、モデルは句読点や文法構造、隠された感情を自動的に解析し、「生き生きとした」音声を出力できます。
🎧 ASRのオープンソース:騒音の多いリアルな環境での「万能の耳」
同時にオープンソースされたMiMo-V2.5-ASRは、「聞き取る・聞き間違いをしない」ことに焦点を当てています:
- 吴语、広東語、福建南部語、四川語などの主要な中国語の方言をサポートしています;
- 中英混合(Code-Switch)の状況下では、言語の事前設定が不要で、スムーズに変換されます;
- 強いノイズ、遠距離収録、複数人の同時会話(例:会議)などの複雑な環境でも高い頑丈さを維持します;
- 古詩、専門用語、曲の歌詞(伴奏の影響を含む)を正確に識別します;
- 元々の標点を出力し、後処理なしで直接次のタスクに使用できます。
多くの権威ある評価において、このモデルは中国語・英語の共通性、方言、混交言語、および歌詞の認識という側面で業界の先頭を走っています。
🚀 無料公開 + オープンソース、エージェントエコシステムの本格的な展開を加速
現在、3つのTTSモデルは小米MiMo開放プラットフォームで限定的に無料となっており、開発者はAPIを呼び出すか、MiMo Studioを使って迅速に体験できます。一方、MiMo-V2.5-ASRのモデルの重みとコードは完全にオープンソースされており、コミュニティによる二次開発をサポートしています。
