最近,Answer.AI 和 LightOn 聯合發佈了開源語言模型 ModernBERT,這是對谷歌 BERT 的重大升級。根據開發者的介紹,ModernBERT 在處理速度、效率和質量上都有了顯著提升。該模型可以比其前身快四倍,同時使用更少的內存。
ModernBERT 的設計允許它處理長達8192個標記的文本,這比現有編碼模型的典型512標記限制提高了16倍。此外,ModernBERT 還是首個經過廣泛訓練的編程代碼編碼模型,它在 StackOverflow 問答數據集上的得分超過80,創造了編碼模型的新紀錄。
在通用語言理解評估(GLUE)中,ModernBERT-Large 的處理速度與準確性達到了最佳平衡,每個標記的處理時間約爲20毫秒,得分爲90。開發團隊形象地將 ModernBERT 比作一輛經過調校的本田思域,強調其在日常應用中可靠而高效。
與現有大型語言模型如 GPT-4相比,ModernBERT 在大規模文本處理上大幅降低了成本。GPT-4每次查詢的費用爲數美分,而 ModernBERT 則可以在本地運行,更快且更便宜。例如,FineWeb Edu 項目在過濾150億個標記時,使用 BERT 模型的成本爲6萬美元,而即便使用谷歌的 Gemini Flash 解碼器,成本也超過了100萬美元。
開發團隊表示,ModernBERT 非常適合多種實際應用,包括檢索增強生成(RAG)系統、代碼搜索和內容審查。不同於需要專門硬件的 GPT-4,ModernBERT 可以在普通消費級遊戲 GPU 上有效運行。
目前,ModernBERT 提供兩個版本:基礎模型包含1.39億個參數,大型版本包含3.95億個參數。兩個版本現已在 Hugging Face 上發佈,並且用戶可以直接用它們替換現有的 BERT 模型。開發團隊計劃在明年推出更大的版本,但沒有多模態能力的計劃。爲了促進新應用的開發,他們還推出了一項比賽,將向五個最佳演示者獎勵100美元和六個月的 Hugging Face 專業訂閱。
自2018年穀歌推出 BERT 以來,該模型一直是最受歡迎的語言模型之一,在 HuggingFace 上每月下載量超過6800萬次。
項目入口:https://huggingface.co/blog/modernbert
劃重點:
🌟 ModernBERT 比 BERT 處理速度快四倍,能夠處理長達8192個標記的文本。
💰 相較於 GPT-4,ModernBERT 在大規模文本處理上的成本大幅降低,運行更高效。
📊 該模型特別擅長處理編程代碼,在 StackOverflow 問答數據集上得分超80,創造新紀錄。