小米が全ラウンド音声大モデル MiMo-V2.5 を発表。TTSで1つの文で新しいボイドを生成可能。ASRは方言と多言語の混在に対応し、オープンソースをサポート

AIの音声が単に「聞こえる・話せる」にとどまらなくなって、演出家のように感情やトーン、役割を正確に調整できるようになった今、人間と機械のインタラクションは新たな時代へと進んでいます。小米は今日、MiMo-V2.5フルスパイラル音声モデルシリーズを正式に発表しました。このシリーズには3つのTTS（音声合成）モデルと1つのオープンソースASR（音声認識）モデルが含まれており、エージェント時代における音声入力と出力を全面的にカバーし、音声を実際にプログラマブルで創造可能、再現可能な知能メディアとして実現します。

🎙️ TTSの三大モデル：音声は今や「あなたの指揮に従う」

小米が今回発表したMiMo-V2.5-TTSシリーズは、「言語が制御」という音声生成の新しいスタイルを初めて実現しています：

MiMo-V2.5-TTS: 高品質な多数の音色が内蔵されており、自然言語の指示によって速度、感情、トーンなどの細かいパラメータを調整できます。ユーザーはパラメータを入力する必要はありません。俳優に台詞を言うように説明すれば良いのです。「優しくも確かなトーンで、少し遅いスピードで、疲れた感じを含めてください」というような指示で、モデルが正確に演じてくれます。
MiMo-V2.5-TTS-VoiceDesign: 一文で新しい音色を作成——「30歳の知的女性の声で、軽い南方訛りがあり、経済ニュースの解説に向いています」と入力すると、システムは即座に専用の声を作成し、音色の創作のハードルを大幅に下げます。
MiMo-V2.5-TTS-VoiceClone: たったわずかなサンプル（例えば30秒の音声）があれば、高精度にターゲットの声を再現できます。また、スタイルの指示やオーディオタグへの反応能力も保持しており、バーチャルDJや個別アシスタントなどのシーンに適しています。

さらに画期的なのはその階層化された演出原稿メカニズムです。有声劇やゲームのNPCなど、一貫性が必要なシーンでは、開発者は「役割の身分」「場面の雰囲気」「1文ごとの演技指導」をそれぞれ定義できます。各層は独立して更新されますが、協働して出力されるため、キャラクターの声が一貫して保たれ、1文ごとに変化があることが確保されます。

また、モデルは行内オーディオタグ（例：[emotion: excited]）をサポートしており、テキストの任意の場所に複数のタグを組み合わせて挿入することが可能です。これにより、複雑な感情の編集が可能になります。純粋なテキストで何のヒントもない場合でも、モデルは句読点や文法構造、隠された感情を自動的に解析し、「生き生きとした」音声を出力できます。

🎧 ASRのオープンソース：騒音の多いリアルな環境での「万能の耳」

同時にオープンソースされたMiMo-V2.5-ASRは、「聞き取る・聞き間違いをしない」ことに焦点を当てています：

吴语、広東語、福建南部語、四川語などの主要な中国語の方言をサポートしています;
中英混合（Code-Switch）の状況下では、言語の事前設定が不要で、スムーズに変換されます;
強いノイズ、遠距離収録、複数人の同時会話（例：会議）などの複雑な環境でも高い頑丈さを維持します;
古詩、専門用語、曲の歌詞（伴奏の影響を含む）を正確に識別します;
元々の標点を出力し、後処理なしで直接次のタスクに使用できます。

多くの権威ある評価において、このモデルは中国語・英語の共通性、方言、混交言語、および歌詞の認識という側面で業界の先頭を走っています。

🚀 無料公開 + オープンソース、エージェントエコシステムの本格的な展開を加速

現在、3つのTTSモデルは小米MiMo開放プラットフォームで限定的に無料となっており、開発者はAPIを呼び出すか、MiMo Studioを使って迅速に体験できます。一方、MiMo-V2.5-ASRのモデルの重みとコードは完全にオープンソースされており、コミュニティによる二次開発をサポートしています。

小米が全ラウンド音声大モデル MiMo-V2.5 を発表。TTSで1つの文で新しいボイドを生成可能。ASRは方言と多言語の混在に対応し、オープンソースをサポート

🎙️ TTSの三大モデル：音声は今や「あなたの指揮に従う」

🎧 ASRのオープンソース：騒音の多いリアルな環境での「万能の耳」

🚀 無料公開 + オープンソース、エージェントエコシステムの本格的な展開を加速

関連推奨

フクケイAIがアリババから大規模な投資を受けました！AIエージェントが小売業の新たな革命を推進

AIの発展が加速し、不安を引き起こす。Anthropicの責任者はユーザーが簡単に追いかけられるよう願っている

騰訊クラウド TokenHub が DeepSeek-V4 のプレビュー版をリリース、百万レベルのコンテキストをサポート

Cohere と Aleph Alpha が200億ドル規模の米大西洋横断人工知能協力関係を締結

PerplexityCEO、AIの波がiPhoneのコアな地位を強化するものとなると語る