Meta 開源了全球最大的多模式翻譯大模型 SeamlessM4T,支持 100 種語言,並能識別地方語言。該模型能執行語音到文本、語音到語音、文本到語音和文本到文本的多模式翻譯任務。SeamlessM4T 集成了 Meta 之前發佈的 NLLB、MMS 等翻譯模型,並使用了大量的語音和文本對齊數據進行訓練。該模型在多任務翻譯中取得了先進的結果,並在魯棒性測試中表現出色,尤其是對於背景噪聲和說話人變化的識別。同時,該模型顯著提高了中低資源語言的性能。