聲音克隆公司 Resemble AI 發佈了其深度僞造檢測模型的下一代,準確率達到約94%。Detect-2B 使用一系列預訓練的子模型和微調來檢查音頻片段,並確定其是否由 AI 生成。DETECT-2B能夠以非常高的準確率(94% 以上)在短短 200 毫秒內對 30 多種語言的音頻進行檢測。通過這款高效、多語言的技術,我們能夠有效地對抗 AI 生成的音頻欺詐。

產品入口:https://top.aibase.com/tool/detect-2b
該公司在一篇博文中表示:“在我們最初的 Detect 模型的堅實基礎上構建,DETECT-2B 在模型架構、訓練數據和整體性能方面都取得了重大進展。結果是一個極其強大且準確的深度僞造檢測模型,在大量真實和僞造音頻片段的數據集上取得了非凡的性能。”

根據 Resemble 的說法,Detect-2B 的子模型 “由一個凍結的音頻表示模型和一個插入到其關鍵層的自適應模塊組成”。適應模塊將模型的重點轉向常常識別真實音頻和僞造音頻的意外聲音 —— 即留在錄音中的意外聲音。大多數由 AI 生成的音頻片段聽起來 “過於乾淨”。Detect-2B 可以預測音頻中由 AI 生成的部分,而無需每次聽新片段時重新訓練模型。子模型還經過大規模數據集的訓練。
Detect-2B 將其預測分數彙總並與 “經過精心調整的閾值” 進行比較,然後確定錄音是真實還是僞造的。Resemble 表示,其研究人員構建 Detect-2B 的方式使其在訓練速度上更快,而不需要太多的計算資源來部署。
該模型的架構基於 Mamba-SSM 或狀態空間模型,它不依賴靜態數據或重複模式。相反,它使用了一種隨機概率模型,對不同的變量更加響應。Resemble 表示,這種架構在音頻檢測方面表現良好,因爲它捕捉了音頻剪輯中的不同動態,適應了音頻信號的各個狀態,並且即使錄音質量較差,仍能繼續工作。
爲了評估該模型,Resemble 表示,他們對 Detect-2B 進行了測試,其中包括未知的發言人、深度僞造生成的音頻以及不同的語言。該公司稱,該模型以至少93% 的準確率正確檢測到了六種不同語言的深度僞造音頻。
Resemble 在四月份推出了其 AI 語音平臺 Rapid Voice Cloning。Detect-2B 將通過 API 提供,並可集成到不同的應用程序中。
Resemble 並不是唯一一個致力於檢測 AI 克隆的公司。McAfee 在一月份推出了項目 Mockingbird,用於檢測 AI 音頻。而 Meta 則正在開發一種爲 AI 生成的音頻添加水印的方法。
劃重點:
- Resemble AI 發佈的 Detect-2B 模型是下一代深度僞造檢測模型,準確率達到94%。
- Detect-2B 使用預訓練的子模型和微調來檢查音頻片段,判斷其是否由 AI 生成。
- 模型的架構基於隨機概率模型,對音頻信號的不同動態更加敏感,並且在不同語言的深度僞造音頻檢測上表現出色。
