近日,通義大模型發佈CoGenAV,以音畫同步理念創新語音識別技術,有效解決語音識別中噪聲干擾的難題。
傳統語音識別在噪聲環境下表現欠佳,CoGenAV則另闢蹊徑,通過學習audio-visual-text之間的時序對齊關係,構建出更魯棒、更通用的語音表徵框架,系統性提升語音識別任務(VSR/AVSR)、語音重建任務(AVSS/AVSE)以及語音同步任務(ASD)等多個Speech-Centric任務的表現力。
在技術實現上,CoGenAV採用“對比生成同步”策略。特徵提取階段,模型利用ResNet3D CNN分析視頻中說話人的脣部動作,捕捉聲音與口型之間的動態關聯,同時用Transformer編碼器提取音頻中的語音信息,並將音視頻特徵精確對齊。對比生成同步訓練通過對比同步和生成同步兩種方式提升模型理解能力。對比同步採用Seq2Seq Contrastive Learning方法,增強音頻與視頻特徵之間的對應關係,並引入ReLU激活函數過濾干擾幀;生成同步藉助預訓練ASR模型將音視頻特徵與其聲學-文本表示對齊,並設計輕量級適配模塊提升跨模態融合效率。
憑藉這些創新技術,CoGenAV在多個基準數據集上取得突破性成果。在視覺語音識別(VSR)任務中,僅用223小時脣動視頻訓練,在LRS2數據集上就達到20.5%的詞錯誤率(WER),效果媲美使用數千小時數據的傳統模型。在音視頻語音識別(AVSR)任務中,結合Whisper Medium模型,在相同數據集實現1.27% WER,刷新SOTA記錄,在0dB噪聲環境下性能提升超過80%,顯著優於純音頻模型。在語音增強與分離(AVSE/AVSS)任務中,作爲視覺特徵提取器,在LRS2語音分離任務中SDRi指標達16.0dB,超越AvHuBERT1.6dB、Av SepFormer0.3dB;在語音增強任務中,SDRi指標爲9.0dB,優於Av HuBERT1.6dB。在主動說話人檢測(ASD)任務中,在Talkies數據集上平均精度(mAP)達到96.3%,領先現有方法。
CoGenAV可直接接入主流語音識別模型,如Whisper,無需修改或微調即可實現視覺語音識別功能,降低了部署門檻,展現出出色的抗噪能力和數據效率,大大節省了訓練成本,增強了模型的實用性與擴展潛力。目前,CoGenAV的相關代碼和模型已在GitHub、arivx、HuggingFace、ModelScope等平臺開源,供研究者和開發者使用。
GitHub:https://github.com/HumanMLLM/CoGenAV
arivx:https://arxiv.org/pdf/2505.03186
HuggingFace:https://huggingface.co/detao/CoGenAV
ModelScope:https://modelscope.cn/models/iic/cogenav