9月30日,通義千問發佈基於大語言模型的多語言實時音視頻翻譯系統Qwen3-LiveTranslate-Flash,爲跨語言交流帶來革命性突破。

該系統支持18種語言的離線和實時翻譯,覆蓋中文、英語、法語、德語、俄語、西班牙語等主流語言,以及普通話、粵語、北京話、吳語等多種方言,爲國際交流提供全方位語言支持。

QQ20250930-161908.png

Qwen3-LiveTranslate-Flash的核心創新在於視覺上下文增強技術。系統不僅能"聽懂"語言,還能通過識別口型、動作、文字和實體等多模態信息"看懂"上下文,有效提升嘈雜環境和複雜語境下的翻譯準確性,破解一詞多譯等翻譯難題。

在延遲控制方面,該系統採用輕量混合專家架構與動態採樣策略,實現最低僅3秒的同傳延遲,大幅提升實時翻譯流暢性。通過語義單元預測技術,系統還減輕了跨語言翻譯中的調序問題,確保接近離線翻譯的高質量輸出。

QQ20250930-161921.png

測試數據顯示,Qwen3-LiveTranslate-Flash在中英及多語言翻譯準確率上顯著超越Gemini-2.5-Flash、GPT-4o-Audio-Preview和Voxtral Small-24B等主流模型,在多領域和複雜聲學環境下表現卓越。

QQ20250930-161929.png

語音合成方面,系統基於海量語音數據訓練,能根據原始語音內容自適應調整語氣和表現力,生成自然流暢的音色。通義千問表示,未來將持續提升翻譯準確性和自然度,擴展語種覆蓋範圍,增強複雜語音環境下的魯棒性。