字節跳動の火山エンジンは、音声認識と音声生成の知能レベルを向上させるための2つの新しい「豆パック音声大モデル」を発表しました。これらのモデルは、「豆パック・音声ポッドキャストモデル」と「豆パック・リアルタイム音声モデル」で、複数の技術指標において顕著な突破を達成しています。
豆パック・音声ポッドキャストモデル
公式によれば、一文、ウェブリンク、長文やドキュメントを入力するだけで、音声ポッドキャストモデルは迅速に学習し、ポッドキャストの台本を作成して創作が可能です。モデルは秒単位で双方向のポッドキャスト作品を生成でき、自然な効果があり、互いに補完したり、挿話したり、迷いや猶予を表現することが可能です。また、独自の深い検索機能により、ホットな話題に関するポッドキャストコンテンツも生成できます。
豆パック・リアルタイム音声モデル: 即座にコミュニケーション、スムーズな交流
一方、豆パック・リアルタイム音声モデルは、リアルタイム音声の認識と生成に特化しており、オンライン会議や教育訓練などさまざまなシーンで広く活用されています。その主な機能には以下が含まれます:
豆パック・リアルタイム音声モデルは企業向けに利用が可能です。このモデルは自然言語による高度なコマンド制御をサポートしており、歌を歌う演技、声質の模倣、方言の演じるなど多岐にわたる能力を持っています。トーン、言い回し、思考方法などにおける人間的な感覚が大幅に向上し、いつでも中断されたり、積極的に話しかけられたりすることが可能です。
これらの2つの豆パック音声大モデルのリリースにより、字節跳動の火山エンジンは音声技術分野での布陣がさらに深まっています。ポッドキャストコンテンツの創作においてもリアルタイム音声交流においても、これらのモデルは大きな応用可能性と市場の見通しを示しています。未来、火山エンジンは引き続き技術革新に努め、音声インタラクションの発展を推進し、知能時代の到来を支援していきます。