人工知能音声分野に大きなブレークスルー!Hume AIは最近、OCTAVEという新しいテキスト音声エンジンを発表しました。このエンジンは、簡単なテキストの説明や5秒の音声録音だけで、リアルな音声と人格特性を生成または複製することができ、仮想キャラクターと人間とのインタラクションに無限の可能性をもたらします。
Hume AI、万能音声エンジンOCTAVEを発表:テキストが瞬時にリアルな音声に、人格特性もクローン化

公開AI二ュ-ス
時間 :Dec 24, 2024
読む :1分

人工知能音声分野に大きなブレークスルー!Hume AIは最近、OCTAVEという新しいテキスト音声エンジンを発表しました。このエンジンは、簡単なテキストの説明や5秒の音声録音だけで、リアルな音声と人格特性を生成または複製することができ、仮想キャラクターと人間とのインタラクションに無限の可能性をもたらします。
Hume AIがオープンソースでリリースしたTADA音声生成モデルは、テキストと音声の二重対応アーキテクチャを採用し、TTSシステムの効率と信頼性を大幅に向上させました。テキストトークンと音声表現を1:1で厳密に同期することで、従来のLLMベースのTTSにおけるコンテンツの幻覚問題を効果的に解決しました。数千個のサンプルテストにより、モデルの性能が優れていることが確認されました。
アリババグループの2026年春の採用が始まり、技術職の85%がAI関連分野を占めており、そのうち7割以上は人工知能分野に焦点を当てている。特に大規模モデルアルゴリズムやマルチモーダル生成などの分野で重点的に採用を行い、全体としてAIへの展開戦略を示している。
1万人の作家が空白の本『この本を盗むな』を共同出版し、AI企業が無断で作品を学習データに使用することに抗議。ノーベル賞作家カズオ・イシグロらが参加し、創作者の権利尊重を象徴的に訴えた。....
OpenAIのハードウェア責任者であるケイトリン・カリノフスキー氏は、会社が米国国防省(戦争省)と争議のある協議を結んだことに不満を抱き、原則に基づいた決定として辞職しました。彼女はMetaのARアイウェア開発を担当していましたが、2024年にOpenAIに加入し、重要なハードウェア戦略において離職したことで業界から注目されています。
ロンドン大学キングスカレッジの研究によると、核危機シミュレーションにおいて、GPT-5.2などの大規模言語モデルは95%の状況で核兵器使用を選択し、紛争のエスカレーションを招く傾向があり、AIによる核兵器管理の安全性に懸念が生じています。....