人工智能語音領域再迎重大突破!Hume AI近日推出了一款名爲OCTAVE的全新文本與語音引擎,該引擎能夠僅憑簡單的文本描述或一段5秒的語音錄音,即可生成或克隆出逼真的語音和人格特質,爲虛擬角色和人機交互帶來了無限可能。

OCTAVE的強大之處在於,它不僅能夠生成自然的語音,還能精確地模仿說話者的性別、年齡、口音、情緒語調以及職業特定的說話風格。這使得它能夠創造出高度個性化的虛擬角色,並讓用戶感受到更加真實的人機交互體驗。

更令人驚豔的是,OCTAVE能夠在毫秒級別內完成語音生成,實現了真正的實時對話,並且還允許用戶實時動態地調整生成內容。這意味着,用戶可以與虛擬角色進行流暢自然的實時對話,並根據需要隨時改變其說話風格和內容。

據瞭解,OCTAVE結合了Hume AI自研的EVI2模型以及OpenAI的語音引擎、Elevenlab的TTS語音設計和Google Deepmind的NotebookLM等多個系統的優勢,這使得它在語音生成和理解方面都表現出了卓越的性能。

OCTAVE還支持多個虛擬角色的語音生成,每個角色都可以擁有完全不同的語音風格、情緒和口音,甚至可以生成完整的播客內容。這爲內容創作者提供了極大的便利,讓他們能夠輕鬆地創作出多樣化的音頻內容。

此外,OCTAVE能夠生成豐富多樣的情緒語音,包括憤怒、興奮、悲傷、平靜等。它能夠捕捉微妙的語音變化,並通過不同情緒語調來增強自然交互感,更好地表現複雜的情緒。在理解文本語義的基礎上,OCTAVE生成的語音與當前主流語言模型(如GPT系列)的語言理解能力相當,確保了生成的語音內容準確且符合語境。

官網:https://www.hume.ai/blog/introducing-octave