最近、OpenAIはそのChatGPTの音声機能を全面的にアップデートし、特にサブスクリプションユーザー向けに、AIの音声表現の自然さと感情豊かさを向上させました。OpenAIによると、アップデートされた「高級音声モード」は、より滑らかで感情豊かな音声出力を実現し、トーン、間の取り方、共感や皮肉などの感情表現を改善しています。

音声 ボイス波形 智能音声

図版提供元: 画像はAIによって生成され、画像提供サービスMidjourneyがライセンス提供しています。

注目すべき点として、このアップデートではリアルタイム翻訳機能も追加されました。ユーザーは特定の言語ペアを選択して、ChatGPTに翻訳を要求できるようになりました。AIは対話する双方の内容を翻訳し続け、ユーザーが停止を指示するまで続けます。この機能はレストランでの注文や多言語業務の場面で非常に便利です。

有料ユーザーはチャット画面の言語アイコンをクリックするだけで、すべてのプラットフォームでこれらの音声改良を体験できます。しかし、OpenAIは依然としていくつかの既知の問題があることを認めています。ユーザーはたまに音声品質の低下、例えば音調や音量の急激な変化に遭遇することがあります。これは一部の音声において特に顕著かもしれません。また、「幻覚」現象とも呼ばれる、無意味な音声の発生も依然として存在します。ChatGPTは時々、理由なく奇妙な音声を生成します。例えば、広告の断片、ランダムノイズ、さらにはバックグラウンドミュージックが挿入されることがあります。最近では、ユーザーからChatGPTが対話中に突然広告を流したという報告がありましたが、OpenAI側では広告配信をしていないとのことです。

image.png

OpenAIは2024年5月に「高級音声モード」を初めてリリースし、同年10月にはEUでの利用を拡大しました。この機能の目標は、AIとの自然なリアルタイムインタラクションを実現することであり、例えば中断しながら感情を表現することも含まれています。カメラを開くことで、ChatGPTは周囲の物体や環境についてリアルタイムでコメントすることもできます。類似の機能はGoogleのGeminiアプリにも見られます。

要点まとめ:

🌟 OpenAIはChatGPTの音声機能をアップデートし、音声表現をより自然で滑らかにし、感情表現を豊かにしました。

🌍 新しいリアルタイム翻訳機能が追加され、ユーザーは特定の言語ペアを選んで連続翻訳が可能です。

⚠️ 音声品質の変動や無作為に発生する奇妙な音声などの問題がまだ存在します。