在大語言模型(LLM)領域,文本數據的分解一直是關鍵的研究方向。傳統的分詞技術,如字節對編碼(Byte Pair Encoding),通常在文本處理前將其切割爲固定的單元,並基於此構建一個靜態的詞彙表。這種方法雖然廣泛使用,但也存在侷限性。一旦分詞完成,模型的處理方式就無法靈活調整,且在面對低資源語言或特殊字符結構的文本時,效果更是不盡如人意。

image.png

爲了解決這些問題,Meta 的研究團隊推出了一種名爲 AU-Net 的創新架構。AU-Net 通過自迴歸的 U-Net 結構,改變了傳統的文本處理模式,能夠直接從原始字節開始學習,靈活地將字節組合成單詞和詞組,甚至形成多達四個單詞的組合,形成多層次的序列表示。

AU-Net 的設計靈感來源於醫學圖像分割領域的 U-Net 架構,具備獨特的收縮路徑和擴張路徑。收縮路徑負責壓縮輸入的字節序列,將其合併爲更高層次的語義單元,以提取文本的宏觀語義。而擴張路徑則負責將這些高層次信息逐步還原,恢復到原始序列長度,同時融合局部細節,使得模型能夠在不同層次上捕捉文本的關鍵特徵。

AU-Net 的收縮路徑分爲多個階段。在第一個階段,模型直接處理原始字節,使用限制注意力機制的方式以保證計算的可行性。接着在第二階段,模型在單詞邊界處進行池化,將字節信息抽象爲單詞級的語義信息。而在第三階段,池化操作在每兩個單詞之間進行,捕捉更大範圍的語義信息,增強模型對文本含義的理解。

擴張路徑則負責將壓縮後的信息逐步還原,採用多線性上採樣的策略,使得每個位置的向量能夠根據序列中的相對位置進行調整,優化高層次信息和局部細節的融合。此外,跳躍連接的設計保證了在還原過程中不丟失重要的局部細節信息,從而提升模型的生成能力和預測準確性。

在推理階段,AU-Net 採取自迴歸的生成機制,確保生成的文本既連貫又準確,同時提高了推理效率。這種創新架構爲大語言模型的發展提供了新的思路,展現了更強的靈活性和適用性。

開源地址:https://github.com/facebookresearch/lingua/tree/main/apps/aunet

劃重點:

- 🚀 AU-Net 架構通過自迴歸方式,動態組合字節形成多層次的序列表示。

- 📊 採用收縮和擴張路徑,確保宏觀語義信息和局部細節的有效融合。

- ⏩ 自迴歸生成機制提高推理效率,確保文本生成的連貫性與準確性。