Hume AI,這家專注於情感智能語音界面的初創公司,近日推出了一項名爲 “語音控制” 的實驗性功能。
這個新工具旨在幫助開發者和用戶無需任何編碼、AI 提示工程或音效設計技能,就能創造出個性化的 AI 聲音。用戶可以通過精確調節聲音特徵,輕鬆定製符合需求的聲音。
這項新功能建立在公司之前推出的 “共情語音界面2”(EVI2)的基礎上,EVI2增強了語音的自然性、情感反應能力和可定製性。與傳統的語音克隆技術不同,Hume 的產品專注於提供獨特且富有表現力的聲音,以滿足客戶服務聊天機器人、數字助手、教師、導遊以及無障礙功能等多種應用的需求。
語音控制功能允許開發者在十個不同的維度上調整聲音特徵,包括性別、果斷性、興奮度、自信心等。
“男性/女性:性別的發聲,範圍在更男性化和更女性化之間。
自信度:聲音的堅定度,介於膽怯和大膽之間。
浮力:聲音的密度,範圍介於放氣和浮力之間。
自信:聲音的確定程度,介於害羞和自信之間。
熱情:聲音中的興奮,介於平靜和熱情之間。
鼻音:聲音的開放度,範圍在清晰與鼻音之間。
放鬆度:聲音中的壓力,介於緊張與放鬆之間。
平滑度:聲音的質感,介於平滑和斷奏之間。
溫和:聲音背後的活力,介於溫和與有力之間。
緊密度:聲音的包容度,範圍介於緊密和氣喘吁吁之間。”
用戶可以通過虛擬滑塊實時微調這些屬性,讓定製變得簡單明瞭。該功能目前在 Hume 的虛擬平臺中提供,用戶只需免費註冊即可訪問。
語音控制目前已推出測試版本,並與 Hume 的 Empathic Voice Interface (EVI) 集成,使其可用於廣泛的應用程序。開發人員可以選擇基本語音,調整其特性,並實時預覽結果。此過程可確保會話間的可重複性和穩定性,這是客戶服務機器人或虛擬助手等實時應用程序的關鍵功能。
EVI2的影響在語音控制功能上顯而易見。早期型號引入了對話提示和多語言功能等功能,這些功能拓寬了語音 AI 應用的範圍。例如,EVI2支持亞秒級響應時間,實現自然、即時的對話。它還允許在交互過程中動態調整說話風格,使其成爲企業的多功能工具。
此舉正是爲了解決 AI 行業中對預設聲音的依賴問題,許多品牌或應用往往難以找到滿足其需求的聲音。Hume 的目標是開發出情感細膩的語音 AI,推動行業進步。EVI2於2024年9月發佈時就已經大幅提升了語音的延遲和成本效益,併爲語音調節功能提供了安全的替代方案。
Hume 的研究驅動型方法在產品開發中佔據核心地位,結合了跨文化的聲音錄音和情感調查數據。這一方法論構成了 EVI2和新推出的語音控制的基礎,使其能夠細緻入微地捕捉人類對聲音的感知。
目前,語音控制已在測試版中推出,並與 Hume 的共情語音界面(EVI)相結合,支持多種應用場景。開發者可以選擇基礎聲音,調整其特性,並實時預覽結果,確保在客戶服務或虛擬助手等實時應用中的一致性和穩定性。
隨着市場上競爭的加劇,Hume 的個性化語音和情感智能定位使其在語音 AI 領域中脫穎而出。未來,Hume 計劃擴展語音控制的功能,增加可調節維度,優化聲音質量,並增加基礎聲音的選擇範圍。
官方博客:https://www.hume.ai/blog/introducing-voice-control
劃重點:
🔊 **Hume AI 推出了 “語音控制” 功能,用戶可輕鬆創建個性化 AI 聲音。**
🛠️ ** 該功能無須編碼技能,用戶可以通過滑塊調整聲音特徵。**
🌐 **Hume 旨在通過個性化和情感智能的語音 AI 來滿足多樣化的應用需求。**