グーグルが最強のTTSモデルを公開 70種類以上の言語をサポート

グーグルはこのほど、Gemini3.1シリーズに新たにテキストから音声への変換モデル「Gemini-TTS」を正式リリースしました。公式の定位は直接的で自信に満ちており、「これまでで最も表現力のあるテキストから音声へのソリューション」としています。

このモデルの最も重要な突破点は、音声の「コントロール権」を実際に開発者に委ねたことです。これまでのTTS製品では、生成される音声がどれも同じようなものになりがちで、トーンが平坦で、リズムが死んでいて、感情が単調でした。それに対してGemini-TTSは、プロンプトを使って音声の感情、リズム、スタイルを直接調整できるようになっています。ナレーションが必要な場合は低く重い雰囲気、会話が必要な場合は自然で軽やかな雰囲気など、停止する場所や感情の上下動を言葉で正確に制御できます。聴感の自然さと細かさは、過去の類似製品よりも一段階進化しています。

多言語対応に関しては、Gemini-TTSは約70の言語をカバーしており、中国語の普通話、英語、スペイン語、日本語などの主要な言語が含まれています。さらに使い勝手が良いのは、モデルが入力テキストの言語を自動的に識別し、開発者が手動でラベルを付ける必要がないことです。直接、対応言語の音声出力を生成できます。グローバルユーザーにサービスを提供したい企業にとって、これは一度のAPIで複数言語のコンテンツの音声化を実現できることを意味します。オーディオブック、ポッドキャスト、カスタマーサポートロボット、教育アプリなどが直接恩恵を受けるシナリオです。

グーグルは特に、Gemini-TTSが同シリーズの音声モデルとの協働能力にも注目しています。リアルタイムでの会話、音声翻訳、マルチモーダルなインタラクションのシーンにおいて、システムは低遅延を維持しながら、テキストプロンプトと音声タグを通じて音声出力を詳細に調整できます。これにより、AIが電話、会議、ナビゲーションなどの実際の使用状況で人間の会話のように聞こえるようになります。

音声は、AIの次の主戦場となっています。グーグルが今回の動きを見せたことで、その勢いはかなり大きいです。

クレードが経済的な感覚を広げる：AIがどの職業を変革しているのかを一言で尋ねる

Anthropicは自社で構築した経済指数のデータベースをクレードに接続しました。この指標は実際のAIの使用データに基づいています。ユーザーはclaude.aiで直接質問ができ、例えば「どの職業でAIを使用していますか」といった質問に対して、指数から直接答えが出力されるので、モデルが勝手に作り出すことなく、データ駆動型の回答が可能です。これはクレードと現実世界でのAIの使用状況との連携を示しています。

巨額賠償が記録を破った！Anthropicは不正な図書のトレーニングについて15億ドルの和解に合意

サンフランシスコ連邦裁、AI企業Anthropicが海賊版DBから約48万冊を無断DLしモデル訓練に使用した件で、過去最高額の15億ドルの和解を承認。各作品約3000ドルの賠償が作者に支払われ、著作権侵害賠償として史上最大となった。....

グーグルが最強のTTSモデルを公開 70種類以上の言語をサポート

関連推奨

マイクロソフトクラシック版Outlookは年末までにCopilot AIのメール作成機能を統合し、Win10/Win11への対応が行われる予定

Monday.com 630人の従業員が人工智能戦略に注力

OpenAIのAIエージェントの制御不能事件：人工知能の安全性への警告

クレードが経済的な感覚を広げる：AIがどの職業を変革しているのかを一言で尋ねる

巨額賠償が記録を破った！Anthropicは不正な図書のトレーニングについて15億ドルの和解に合意