吉利汽車近日在語音合成領域取得重大突破,其自主研發的HAM-TTS大模型性能超越了行業標杆VALL-E,引起業界廣泛關注。這款名爲"星睿"的AI大模型在發音準確性、自然度和說話人相似度等關鍵指標上均實現了顯著提升。

HAM-TTS模型採用基於token的零樣本文字轉語音分層聲學建模技術,在智能座艙中大幅提升了用戶交互體驗。在相同的4億參數條件下,HAM-TTS模型的字符錯誤率比VALL-E下降了1.5%;而在8億參數的完全體上,字符錯誤率更是直降2.3%。在風格一致性、音調一致性和整體得分上,HAM-TTS模型都取得了10%的顯著提升。

QQ20240924-101224.jpg

星睿模型的優勢不僅體現在性能指標上,其實用性也令人印象深刻。它能夠在虛擬形象聯動、語音導航、新聞播報等多種場景中保持說話人的聲音穩定性,並根據情境智能調節語氣、語調、停頓和情感。更值得一提的是,該模型可以在不同語種間無縫切換,包括方言和外語,且只需3秒鐘的樣本輸入就能完成聲音復刻,遠優於業界通常需要的10秒以上。

image.png

吉利團隊通過引入分層聲學建模,創新性地提高了模型性能。他們解決了發音不準的問題,並引入隱空間變量序列預測器和文本對齊器,使文本和聲音的匹配更加精準,從而使合成語音更加自然流暢。

這一突破不僅展示了吉利在智能化技術方面的研發實力,也反映了其在AI領域的雄心。吉利的星睿AI大模型體系已擴展到多模態大模型、語言大模型等多個方向,爲智能汽車技術奠定了基礎。同時,吉利的雲端總算力也從去年的81億億次/秒提升至102億億次/秒,顯示出其在技術上的持續投入。

隨着電動化的初步成功,吉利在智能化領域的這一突破,爲汽車行業的未來發展提供了新的思路和可能性。這不僅重新定義了我們對傳統汽車製造商的認知,也預示着智能化將成爲未來汽車行業競爭的關鍵領域。

論文地址:https://arxiv.org/pdf/2403.05989