一家名爲 Panjaya 的創業公司正在徹底改變視頻翻譯的遊戲規則。經過三年祕密研發,該公司推出了突破性產品 BodyTalk,這是一款能夠將視頻中人物聲音精準轉換爲其他語言的 AI 工具。不同於傳統配音,BodyTalk 不僅能完美複製說話者的原聲特徵,還能自動調整視頻中人物的面部表情和肢體動作,使其與新語言的語音模式自然匹配。
Panjaya 由兩位以色列政府深度學習專家希利克·沙尼(Hilik Shani)和阿里爾·沙洛姆(Ariel Shalom)創立。2021年,兩人離開政府部門創業,隨後迎來了具有豐富行業經驗的蓋伊·皮克茲(Guy Piekarz)擔任 CEO。皮克茲此前創立的流媒體發現與推薦平臺 Matcha 曾在2013年被蘋果公司收購。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
目前,BodyTalk 已支持29種語言的翻譯。其工作流程首先是進行音頻翻譯,然後生成模仿原聲說話者的新語音,最後自動調整視頻中說話者的口型和動作以匹配新的語言表達。雖然處理時間已接近實時,但目前仍需要幾分鐘才能完成一段視頻的處理。
在技術層面,Panjaya 採用了混合策略,既利用第三方大語言模型,也自主研發核心技術。據皮克茲介紹,公司的脣形同步引擎完全由內部 AI 研究團隊開發,因爲市面上沒有能滿足其多角度、多說話者等複雜商業場景需求的解決方案。
公司目前專注於 B2B 市場,已與 JFrog 和 TED 等機構達成合作。TED 表示,使用 Panjaya 工具配音的講座視頻觀看量增加了115%,完整觀看率翻倍。公司計劃進一步拓展體育、教育、營銷和醫療等領域的應用。
爲了避免技術濫用,Panjaya 嚴格控制工具的使用權限,並計劃開發水印等功能來識別經過合成的視頻內容。儘管字幕已成爲視頻內容的標配——據 CBS 調查顯示,超過一半的美國觀衆會在觀看時開啓字幕——但國際市場對配音內容的需求依然巨大。研究機構 CSA 的數據表明,特別是在 B2B 領域,母語內容能帶來更高的用戶參與度。
此輪950萬美元融資由多家投資機構和個人參與,包括 Viola Ventures、R-Squared Ventures 以及 JFrog 聯合創始人兼 CEO 什洛米·本·海姆(Shlomi Ben Haim)等。未來,Panjaya 計劃推出 API 接口,並進一步提升處理速度,向實時處理的目標邁進。