Teuken-7B,一款擁有 70 億個參數的語言模型,現已在 Hugging Face 上推出,支持所有 24 種歐盟官方語言。該模型由歐盟 OpenGPT-X 研究項目開發,並可作爲開源項目供用戶使用。與大多數以英語爲核心的 AI 語言模型不同,Teuken-7B 是從零開始構建的,約一半的訓練數據來源於非英語的歐洲語言。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
開發團隊表示,Teuken-7B 在所有訓練過的語言中都表現出色,尤其是在處理非英語語言時,其可靠性令人印象深刻。爲衡量語言模型在歐洲語言中的表現,項目團隊還創建了一個全新的歐洲 LLM 排行榜,超越了以往主要基於英語的標準測試方法。
這一發布標誌着歐洲在推動多語言人工智能模型方面的重大進展,同時也爲開發者提供了一個強大且多樣化的工具,以支持跨語言的應用和研究。