阿里巴巴達摩院的通義實驗室近期宣佈開源一項名爲ClearerVoice-Studio的語音處理技術,旨在提升語音質量和可懂度。隨着語音技術的廣泛應用,語音質量受到越來越多人的關注,尤其是在環境噪聲、混響和設備拾音等情況下,語音處理技術的需求日益迫切。

ClearerVoice-Studio集成了語音增強、語音分離和音視頻說話人提取等功能,通過融合複數域深度學習算法,大幅提升了語音降噪和分離的性能。該技術能夠最大限度地消除背景噪聲,保留語音清晰度,同時保持語音失真最小化。

阿里雲、通義千問

ClearerVoice-Studio的核心模型與算法包括在2022年IEEE/INTER Speech DNS Challenge中獲得整體第二的FRCRN模型,以及在語音分離任務中表現卓越的MossFormer系列模型。基於MossFormer2的48kHz語音增強模型在有效抑制噪聲的同時,大幅降低了語音失真。

阿里巴巴通義實驗室希望通過ClearerVoice-Studio平臺,爲開發者、研究者和企業提供強大的語音處理工具,助力創新應用落地。用戶可以通過在線體驗Demo,準備一段包含噪聲的語音文件,上傳至指定頁面,一鍵處理後在線試聽或下載處理結果,即刻獲得清晰的音質和卓越的降噪效果。

GitHub 倉庫:https://github.com/modelscope/ClearerVoice-Studio

在線體驗 Demo:https://huggingface.co/spaces/alibabasglab/ClearVoice