話せ、歌える、おどける！小米がMiMo-V2-TTS大モデルを発表。中国語の方言や感情を自在に扱う

音声合成技術は「機械的な読み上げ」から「感情の共鳴」へと質的な飛躍を遂げています。3月19日、小米は自社開発の音声合成大規模モデル Xiaomi MiMo-V2-TTS を正式にリリースしました。これは単なる「機械が話すためのツール」ではなく、演じる、話す、歌うという多機能な「総合的声優」としての役割も果たします。

MiMo-V2-TTS は、小米が独自開発した Audio Tokenizer（音声トークナイザ）およびマルチコードブック音声-テキスト連合モデリング構造に基づいています。数十億時間分の音声データで大規模な事前トレーニングを行った結果、驚くほどの多スケールの音声スタイル制御能力を示しています:

感情の専門家: モデルは全体的なトーンから局所的な感情に至るまで、正確な調整が可能です。同じ文の中で、話し方の自然な転換や感情の繊細な変化を実現し、人間が話す際の自然なリズムを完璧に再現できます。
異分野の歌手: 話すだけでなく、高品質な歌唱合成能力も備えており、音程とリズムを正確に表現し、自然で表現力豊かな歌い方が可能です。
方言のプロ: 異なる地域のユーザーの使用習慣に近づけるために、モデルは東北語、四川語、河南語、広東語、台湾風などの多様な方言をサポートしており、キャラクターやスタイルに応じた表現も可能です。

注目すべき点は、MiMo-V2-TTS がインターフェースのコストを大幅に簡略化していることです。テキスト内の句読記号、イントネーションや強調記号を自動的に認識し、適切な音声表現に変換することができます。ユーザーが追加のラベリングや手動の操作を行う必要はありません。

小米にとって、この大規模モデルのリリースは、音声技術のロードマップにおいて重要な節目です。今後の計画では、中国語と英語以外の多くの言語をカバーし、MiMo-V2-Omniのマルチモーダル理解能力と深く統合する予定です。

AIエージェントが世界を理解するだけでなく、感情を引き出すような人間らしい声で世界を語れるようになるとき、人間と機械のインタラクションの未来が明らかになります。MiMo-V2-TTS

オフィス効率の革命！ClaudeがMicrosoft 365と深く連携し、AIオフィスの任督二脈をオープンに

Anthropicは、Claude AIアシスタントをMicrosoft 365に深く統合し、有料ユーザー向けに公開しました。Excel、PowerPoint、Wordなどのオフィスソフトでウィンドウを切り替えることなく直接利用でき、アプリ間のスマートな連携処理により業務効率を向上させます。....

伝統を打ち破る！小型推論エンジンDeepSeek V4 Flashがリリース

DeepSeek V4Flashは、Metalプラットフォーム向けに設計された小型ローカル推論エンジンであり、DeepSeek V4Flashモデルに特化して最適化され、効率的で柔軟な推論体験を提供します。汎用エンジンとは異なり、ターゲット最適化により性能を最大化し、速度に加えて独自の思考モード設計を重視し、ローカル推論の新潮流をリードします。....

アリババ・チンワン AI サングラス S1 のアップグレード：アクティブなサービスと世界初の3D表示機能登場

アリババの千問AIメガネS1が大幅アップデート。天気や時間、スケジュールに基づくパーソナルリマインダー（傘の携帯提案など）を提供する能動的サービス機能を追加。さらに、タクシー呼び出し、即時購入、旅程計画などの生活サービス機能を搭載し、ユーザーの移動利便性を向上。....

SenseNova 6.7 Flash-Liteを発表、消費量が60％削減

商湯科技が新世代の軽量マルチモーダルエージェントモデル「SenseNova6.7-Lite」を発表。実世界のフロー需要に対応し、複雑なレイアウトやドキュメント構造、財務チャートを直接理解。視覚変換の中間層を廃止し、少ないパラメータでエージェント能力を飛躍的に向上させた。....

話せ、歌える、おどける！小米がMiMo-V2-TTS大モデルを発表。中国語の方言や感情を自在に扱う

関連推奨

オフィス効率の革命！ClaudeがMicrosoft 365と深く連携し、AIオフィスの任督二脈をオープンに

伝統を打ち破る！小型推論エンジンDeepSeek V4 Flashがリリース

アリババ・チンワン AI サングラス S1 のアップグレード：アクティブなサービスと世界初の3D表示機能登場

大手企業が再編：小紅書は三大主要業務を統合、AIと海外市場が戦略の中心

SenseNova 6.7 Flash-Liteを発表、消費量が60％削減