音声合成技術は「機械的な読み上げ」から「感情の共鳴」へと質的な飛躍を遂げています。3月19日、

感情の専門家: モデルは全体的なトーンから局所的な感情に至るまで、正確な調整が可能です。同じ文の中で、話し方の自然な転換や感情の繊細な変化を実現し、人間が話す際の自然なリズムを完璧に再現できます。
異分野の歌手: 話すだけでなく、高品質な歌唱合成能力も備えており、音程とリズムを正確に表現し、自然で表現力豊かな歌い方が可能です。
方言のプロ: 異なる地域のユーザーの使用習慣に近づけるために、モデルは東北語、四川語、河南語、広東語、台湾風などの多様な方言をサポートしており、キャラクターやスタイルに応じた表現も可能です。
注目すべき点は、
小米にとって、この大規模モデルのリリースは、音声技術のロードマップにおいて重要な節目です。今後の計画では、中国語と英語以外の多くの言語をカバーし、MiMo-V2-Omniのマルチモーダル理解能力と深く統合する予定です。
AIエージェントが世界を理解するだけでなく、感情を引き出すような人間らしい声で世界を語れるようになるとき、人間と機械のインタラクションの未来が明らかになります。
