研究團隊最近帶來了一個令人興奮的新方法,叫做 T-FREE,讓大型語言模型的運作效率直線上升。來自 Aleph Alpha、達姆施塔特工業大學、hessian.AI 和德國人工智能研究中心(DFKI)的科學家們聯合推出了這個令人驚歎的技術,它的全名是 “無需標記器的稀疏表示,可實現內存高效嵌入”。
傳統上,我們使用標記器將文本轉化爲計算機能理解的數字形式,但 T-FREE 選擇了一條不同的路。它利用字符三元組,也就是我們稱之爲 “三元組” 的東西,通過稀疏激活的方式直接將單詞嵌入模型中。這一創新舉措的結果是,嵌入層的參數數量減少了驚人的85% 以上,同時在處理文本分類和問答等任務時,模型的性能絲毫未受影響。
T-FREE 的另一大亮點在於它非常聰明地對單詞間的形態相似性進行了建模。就像我們在日常生活中經常碰到的 “house”、“houses” 和 “domestic” 這些詞,T-FREE 能更有效地將這些相似的詞在模型中表示出來。研究人員認爲,相似的詞在嵌入時應該彼此靠得更近,從而實現更高的壓縮率。因此,T-FREE 不僅減小了嵌入層的體積,還將文本的平均編碼長度減少了56%。
更值得一提的是,T-FREE 在不同語言之間的遷移學習方面表現得尤爲出色。在一項實驗中,研究人員使用一個擁有30億參數的模型,先用英語進行訓練,再用德語進行訓練,結果發現 T-FREE 的適應性遠超傳統的基於標記器的方法。
不過,研究人員也對目前的成果保持謙虛。他們承認,至今爲止的實驗僅限於多達30億參數的模型,未來還計劃在更大的模型和更龐大的數據集上進行進一步評估。