在人工智能的世界裏,有一羣特殊的"畫家"——Transformer模型中的層級結構。它們像一支支神奇的畫筆,在語言的畫布上描繪出豐富多彩的世界。最近,一篇名爲"Transformer Layers as Painters"的論文,爲我們理解Transformer中間層的工作機制提供了新的視角。

Transformer模型,作爲當下最流行的大型語言模型,擁有數十億的參數量。它的每一層,就像一位位畫家,共同完成一幅宏大的語言畫卷。但這些"畫家"是如何協同工作的?它們使用的"畫筆"和"顏料"又有何不同?這篇論文試圖回答這些問題。
爲了探究Transformer層的工作原理,作者設計了一系列實驗,包括跳過某些層、改變層的順序或並行運行層等。這些實驗就好比給"畫家"們設置不同的作畫規則,看看他們能否適應。
在「畫家流水線」的比喻中,輸入被看作是一張畫布,通過中間層的過程就像是畫布在流水線上的傳遞。每個「畫家」,即Transformer的每個層,都會根據自己的專長對畫作進行修改。這種類比幫助我們理解了Transformer層的並行性和可調整性。
實驗使用了兩種預訓練的大型語言模型(LLM):Llama2-7B和BERT。研究發現,中間層的"畫家"們似乎共享着一個共同的"顏料盒"——表示空間,而與首尾層有所不同。跳過某些中間層的"畫家",對整幅畫作的影響並不大,說明並非所有"畫家"都是必須的。
儘管中間層的"畫家"們使用相同的"顏料盒",但它們卻用各自的技藝,在畫布上描繪出不同的圖案。如果簡單地重複使用某位"畫家"的技藝,畫作就會失去原有的魅力。

對於需要嚴密邏輯的數學和推理任務,"作畫"的順序尤爲重要。而對於依賴語義理解的任務,順序的影響則相對較小。
研究結果表明,Transformer的中間層具有一定程度的一致性,但並不冗餘。對於數學和推理任務,層的順序比語義任務更爲重要。

研究還發現,並非所有層都是必要的,中間層可以跳過而不會災難性地影響模型性能。此外,中間層雖然共享相同的表徵空間,但它們執行着不同的功能。改變層的執行順序會導致性能下降,表明順序對於模型性能有重要影響。
在探索Transformer模型的道路上,許多研究者都在嘗試對其進行優化,包括剪枝、減少參數等。這些工作爲理解Transformer模型提供了寶貴的經驗和啓示。
論文地址:https://arxiv.org/pdf/2407.09298v1
