近日,阿里通義 Qwen 團隊發佈了一款名爲 Qwen3-ASR-Toolkit 的開源 Python 命令行工具。這款工具旨在爲用戶提供更爲便捷的音視頻轉錄服務,特別是在音頻時長方面,突破了 Qwen3-ASR-Flash API 的三分鐘限制,能夠實現小時級的快速轉錄。這一新工具的推出,無疑爲需要進行大規模音頻轉錄的用戶提供了強有力的支持。

image.png

Qwen3-ASR-Flash 是通義千問系列中最新的語音識別模型,經過海量多模態數據及千萬小時規模的自動語音識別(ASR)數據訓練而成。它的強大性能爲用戶提供了高準確率的語音識別能力,使得長時間的音頻和視頻內容可以被有效轉錄成文本,極大地提升了工作效率。

Qwen3-ASR-Toolkit 採用了智能靜音切分技術(VAD),確保轉錄過程中句子的完整性。同時,該工具能夠自動將任意採樣率的音頻文件重採樣爲16kHz 單聲道,以提高處理效果。此外,它還支持多線程並行上傳分片的功能,這一特性顯著縮短了總耗時,使得用戶在使用過程中體驗更加流暢。

在支持的媒體格式方面,Qwen3-ASR-Toolkit 基於 FFmpeg,幾乎涵蓋了所有主流音頻和視頻格式,包括 mp4、mov、mkv、mp3、wav、m4a 等,這使得用戶在進行音視頻轉錄時,能夠更加靈活地選擇文件類型,無需擔心格式兼容問題。

github:https://github.com/QwenLM/Qwen3-ASR-Toolkit

劃重點:  

📌 阿里通義推出 Qwen3-ASR-Toolkit,突破音頻轉錄時間限制,支持小時級轉錄。  

🎤 該工具基於最新的 Qwen3-ASR-Flash 模型,確保高準確率的語音識別。  

💻 支持多種音視頻格式,用戶可以靈活選擇,提升音視頻轉錄效率。