在TechCrunch Disrupt2025大會上,AI語音巨頭ElevenLabs聯合創始人兼CEO馬蒂·斯塔尼斯澤夫斯基(Mati Staniszewski)做出一項驚人判斷:AI語音模型將在未來兩三年內走向“商品化”——儘管短期內仍是核心競爭力,但長期來看,模型之間的性能差異將逐漸縮小,尤其在主流語言和通用音色上。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
短期靠模型,長期靠產品
面對“既然模型終將同質化,爲何還要重投入研發”的質疑,Staniszewski坦言:“今天,模型仍是最大的技術壁壘。如果AI語音聽起來不自然、不流暢,用戶體驗就無從談起。”他指出,ElevenLabs過去在模型架構上的突破(如情感表達、多語言韻律建模)是其當前領先的關鍵。
但公司早已佈局後模型時代。Staniszewski強調,ElevenLabs的長期戰略並非僅做“模型供應商”,而是打造“AI+產品”的完整體驗——正如蘋果通過軟硬件協同定義智能手機,ElevenLabs希望以自研模型爲引擎,驅動高價值應用場景落地,從而構建真正護城河。
多模態融合成下一戰場
展望未來1-2年,Staniszewski預測,單一模態的語音模型將加速向多模態融合演進。“你將同時生成音頻與視頻,或在對話中實時聯動大語言模型與語音引擎。”他以Google最新發佈的Veo3視頻生成模型爲例,說明跨模態協同正成爲技術新前沿。
爲此,ElevenLabs正積極尋求與第三方模型和開源社區合作,探索將其頂尖音頻能力嵌入更廣泛的AI生態。例如,將ElevenLabs的語音合成與視覺生成、LLM推理深度耦合,打造沉浸式虛擬人、智能客服或互動娛樂體驗。
商品化≠無價值,而是價值重心轉移
Staniszewski並不認爲模型商品化意味着行業衰退,而是價值重心從底層技術轉向應用創新。他解釋:“未來,企業會根據具體場景選擇不同模型——客服用一個,遊戲配音用另一個,教育講解再用一個。可靠性、可擴展性和場景適配性,比單純的‘音質最好’更重要。”
因此,ElevenLabs正同步強化其API平臺、開發者工具鏈與行業解決方案,確保客戶不僅能獲得高質量語音,更能快速集成到真實業務流中。
結語:做AI時代的“聲音基礎設施”
在語音AI從“炫技”走向“實用”的拐點,ElevenLabs的選擇清晰而務實:短期死磕模型,長期深耕產品。當行業共識逐漸指向“模型即服務”(Model-as-a-Commodity),真正的贏家或許不是參數最多的公司,而是最懂用戶、最能將AI無縫嵌入人類交互場景的那一個。
正如Staniszewski所言:“最好的用例,誕生於產品與AI的魔法結合。”而ElevenLabs,正試圖成爲這場魔法的首席煉金術士。
