Resemble AI,一家領先的語音克隆公司,近日宣佈發佈了其下一代深度僞造檢測模型 Detect-2B。這款新模型在檢測 AI 生成的音頻方面表現出了約94%的高準確率,標誌着深度僞造檢測技術的又一重要進步。

Detect-2B 利用一系列預先訓練的子模型和微調技術,對音頻片段進行深入檢查,以確定其是否爲 AI 生成。Resemble AI 在其博客中表示,Detect-2B 在原有 Detect 模型的基礎上,實現了模型架構、訓練數據和整體性能的重大飛躍,打造出了一個極其穩健且準確的檢測模型。

Detect-2B 的子模型由一個凍結的音頻表示模型和插入關鍵層的自適應模塊組成。這些自適應模塊將模型的焦點轉移到僞像上,即錄音中留下的意外聲音,這些聲音通常可以區分真實音頻和 AI 生成的音頻。AI 生成的音頻往往聽起來“太乾淨”,而 Detect-2B 能夠預測音頻的 AI 生成概率,無需在每次收聽新片段時重新訓練模型。

AI客服 AI語音


圖源備註:圖片由AI生成,圖片授權服務商Midjourney

Resemble AI 還提到,Detect-2B 的架構基於 Mamba-SSM 或狀態空間模型,這些模型不依賴於靜態數據或重複模式,而是使用隨機或隨機概率模型,對不同的變量反應更好。這種架構非常適合音頻檢測,因爲它可以捕捉音頻片段中的不同動態,適應音頻信號的狀態,即使錄音質量較差也能繼續執行。

在評估模型性能時,Resemble AI 對 Detect-2B 進行了廣泛的測試,包括未見過的說話者、深度僞造生成的音頻和不同語言。該公司表示,該模型能夠以至少93%的準確率正確檢測六種不同語言的深度僞造音頻。

Resemble AI 於4月推出了其 AI 語音平臺 Rapid Voice Cloning。Detect-2B 將通過 API 提供,並可集成到不同的應用程序中,爲企業提供強大的深度僞造檢測工具。

隨着2024年美國總統大選的臨近,識別人工智能生成的聲音或視頻變得越來越重要。人工智能聲音可能會讓誤導選民和傳播錯誤信息變得更加容易,削弱了人們對品牌的信任。Detect-2B 等工具可以在深度僞造被公衆知曉之前,幫助識別和證明這些僞造品。

Resemble AI 並不是唯一一家致力於檢測 AI 克隆的公司。McAfee 於1月啓動了 Project Mockingbird 來檢測 AI 音頻,而 Meta 正在開發一種在 AI 生成的音頻中添加水印的方法。

Resemble AI 表示,隨着生成式人工智能能力的不斷進步,他們的檢測能力也必須不斷進步。他們計劃了幾個令人興奮的研究方向來進一步改進 Detect-2B,重點關注表徵學習、高級模型架構和數據擴展等領域。這表明 Resemble AI 致力於持續創新,以應對深度僞造技術的挑戰。