武漢大學聯合中國移動九天人工智能團隊和崑山杜克大學基於YouTube數據開源了超過11萬小時的音視頻說話人識別數據集VoxBlink2。該數據集包含9904382個高質量音頻片段及其相應的視頻片段,來自YouTube上的111284名用戶,是目前最大的公開可用的音視頻說話人識別數據集。數據集的發佈旨在豐富開源語音語料庫,支持訓練聲紋大模型。

微信截圖_20240726092359.png

VoxBlink2數據集通過以下步驟進行數據挖掘:

  1. 候選人準備:收集多語種關鍵詞列表,檢索用戶視頻,選取前一分鐘視頻用於處理。

  2. 人臉提取&檢測:高幀率抽取視頻幀,使用MobileNet檢測人臉,確保視頻軌僅含單個說話人。

  3. 人臉識別:預訓練人臉識別器逐幀識別,確保音視頻片段來源於同一人。

  4. 活動說話人檢測:利用脣動序列和音頻,通過多模態活動說話人檢測器輸出發聲片段,混疊檢測去除多說話人片段。

爲提高數據準確率,還引入了集內人臉識別器的旁路步驟,通過粗略人臉提取、人臉驗證、人臉採樣和訓練,將準確率從72%提高到92%。

VoxBlink2還開源了不同大小的聲紋模型,包括基於ResNet的2D卷積模型和基於ECAPA-TDNN的時序模型,以及基於Simple Attention Module的超大模型ResNet293。這些模型在Vox1-O數據集上經過後處理後可達0.17%的EER和0.006%的minDCF。

數據集網站:https://VoxBlink2.github.io

數據集下載方式:https://github.com/VoxBlink2/ScriptsForVoxBlink2

元文件和模型:https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP

論文地址:https://arxiv.org/abs/2407.11510