ElevenLabs CEO預言：AI語音模型將走向“商品化”，公司押注“模型+應用”雙輪驅動

在TechCrunch Disrupt2025大會上，AI語音巨頭ElevenLabs聯合創始人兼CEO馬蒂·斯塔尼斯澤夫斯基（Mati Staniszewski）做出一項驚人判斷:AI語音模型將在未來兩三年內走向“商品化”——儘管短期內仍是核心競爭力，但長期來看，模型之間的性能差異將逐漸縮小，尤其在主流語言和通用音色上。

音樂音頻聲波

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

短期靠模型，長期靠產品

面對“既然模型終將同質化，爲何還要重投入研發”的質疑，Staniszewski坦言:“今天，模型仍是最大的技術壁壘。如果AI語音聽起來不自然、不流暢，用戶體驗就無從談起。”他指出，ElevenLabs過去在模型架構上的突破（如情感表達、多語言韻律建模）是其當前領先的關鍵。

但公司早已佈局後模型時代。Staniszewski強調，ElevenLabs的長期戰略並非僅做“模型供應商”，而是打造“AI+產品”的完整體驗——正如蘋果通過軟硬件協同定義智能手機，ElevenLabs希望以自研模型爲引擎，驅動高價值應用場景落地，從而構建真正護城河。

多模態融合成下一戰場

展望未來1-2年，Staniszewski預測，單一模態的語音模型將加速向多模態融合演進。“你將同時生成音頻與視頻，或在對話中實時聯動大語言模型與語音引擎。”他以Google最新發佈的Veo3視頻生成模型爲例，說明跨模態協同正成爲技術新前沿。

爲此，ElevenLabs正積極尋求與第三方模型和開源社區合作，探索將其頂尖音頻能力嵌入更廣泛的AI生態。例如，將ElevenLabs的語音合成與視覺生成、LLM推理深度耦合，打造沉浸式虛擬人、智能客服或互動娛樂體驗。

商品化≠無價值，而是價值重心轉移

Staniszewski並不認爲模型商品化意味着行業衰退，而是價值重心從底層技術轉向應用創新。他解釋:“未來，企業會根據具體場景選擇不同模型——客服用一個，遊戲配音用另一個，教育講解再用一個。可靠性、可擴展性和場景適配性，比單純的‘音質最好’更重要。”

因此，ElevenLabs正同步強化其API平臺、開發者工具鏈與行業解決方案，確保客戶不僅能獲得高質量語音，更能快速集成到真實業務流中。

結語:做AI時代的“聲音基礎設施”

在語音AI從“炫技”走向“實用”的拐點，ElevenLabs的選擇清晰而務實:短期死磕模型，長期深耕產品。當行業共識逐漸指向“模型即服務”（Model-as-a-Commodity），真正的贏家或許不是參數最多的公司，而是最懂用戶、最能將AI無縫嵌入人類交互場景的那一個。

正如Staniszewski所言:“最好的用例，誕生於產品與AI的魔法結合。”而ElevenLabs，正試圖成爲這場魔法的首席煉金術士。

ElevenLabs CEO預言：AI語音模型將走向“商品化”，公司押注“模型+應用”雙輪驅動

短期靠模型，長期靠產品

多模態融合成下一戰場

商品化≠無價值，而是價值重心轉移

結語:做AI時代的“聲音基礎設施”

相關推薦

AI語音巨頭誕生！ElevenLabs狂攬5億刀融資，估值飆至110億美元，成全球最貴AI語音服務商

語音AI巨頭ElevenLabs完成 5 億美元融資，估值攀升至 110 億美元

美國交通部擬引入 Google Gemini 快速起草安全法規

騰訊搜狗輸入法發佈 20.0 重磅版本全面AI

多位傳奇音樂人聯合推出人工智能專輯《The Eleven Album》

ElevenLabs CEO預言：AI語音模型將走向“商品化”，公司押注“模型+應用”雙輪驅動

短期靠模型，長期靠產品

多模態融合成下一戰場

商品化≠無價值，而是價值重心轉移

結語:做AI時代的“聲音基礎設施”

相關推薦

AI語音巨頭誕生！ElevenLabs狂攬5億刀融資，估值飆至110億美元，成全球最貴AI語音服務商

​語音AI巨頭ElevenLabs完成 5 億美元融資，估值攀升至 110 億美元

​美國交通部擬引入 Google Gemini 快速起草安全法規

​騰訊搜狗輸入法發佈 20.0 重磅版本全面AI

多位傳奇音樂人聯合推出人工智能專輯《The Eleven Album》

語音AI巨頭ElevenLabs完成 5 億美元融資，估值攀升至 110 億美元

美國交通部擬引入 Google Gemini 快速起草安全法規

騰訊搜狗輸入法發佈 20.0 重磅版本全面AI