字節跳動火山引擎發佈了兩款全新的豆包語音大模型,旨在提升語音識別和語音生成的智能水平。這兩款模型分別是豆包・語音播客模型和豆包・實時語音模型,均在多項技術指標上實現了顯著的突破。

豆包・語音播客模型

根據官方介紹,只需輸入一句話、網頁鏈接、長文本或文檔,語音播客模型即可快速搜索學習,生成播客腳本後創作出來;模型可秒級生成雙人對話式播客作品,效果自然,具有互相附和、插話、猶豫等播客節奏;自帶的深度搜索功能可生成跟進熱點話題的播客內容。

豆包・實時語音模型:即刻溝通,無縫交流

豆包・實時語音模型則專注於實時語音識別與生成,廣泛應用於在線會議、教育培訓等場景。其主要功能包括:

豆包・實時語音模型對企業客戶開放使用。該模型支持自然語言高級指令控制,具備唱歌表演、聲線模仿、方言演繹等多種能力,語氣、用語、思考方式等擬人感大幅提升,能隨時打斷與主動搭話。

image.png

隨着這兩款豆包語音大模型的上線,字節跳動火山引擎在語音技術領域的佈局進一步深化。無論是在播客內容創作,還是實時語音交流方面,這兩款模型都展現了極大的應用潛力和市場前景。未來,火山引擎將繼續致力於技術創新,不斷推動語音交互的發展,助力智能時代的到來。