論文新解！用“畫家流水線”揭示Transformer中間層的工作機制

在人工智能的世界裏，有一羣特殊的"畫家"——Transformer模型中的層級結構。它們像一支支神奇的畫筆，在語言的畫布上描繪出豐富多彩的世界。最近，一篇名爲"Transformer Layers as Painters"的論文，爲我們理解Transformer中間層的工作機制提供了新的視角。

Transformer模型，作爲當下最流行的大型語言模型，擁有數十億的參數量。它的每一層，就像一位位畫家，共同完成一幅宏大的語言畫卷。但這些"畫家"是如何協同工作的?它們使用的"畫筆"和"顏料"又有何不同?這篇論文試圖回答這些問題。

爲了探究Transformer層的工作原理，作者設計了一系列實驗，包括跳過某些層、改變層的順序或並行運行層等。這些實驗就好比給"畫家"們設置不同的作畫規則，看看他們能否適應。

在「畫家流水線」的比喻中，輸入被看作是一張畫布，通過中間層的過程就像是畫布在流水線上的傳遞。每個「畫家」，即Transformer的每個層，都會根據自己的專長對畫作進行修改。這種類比幫助我們理解了Transformer層的並行性和可調整性。

實驗使用了兩種預訓練的大型語言模型（LLM）:Llama2-7B和BERT。研究發現，中間層的"畫家"們似乎共享着一個共同的"顏料盒"——表示空間，而與首尾層有所不同。跳過某些中間層的"畫家"，對整幅畫作的影響並不大，說明並非所有"畫家"都是必須的。

儘管中間層的"畫家"們使用相同的"顏料盒"，但它們卻用各自的技藝，在畫布上描繪出不同的圖案。如果簡單地重複使用某位"畫家"的技藝，畫作就會失去原有的魅力。

對於需要嚴密邏輯的數學和推理任務，"作畫"的順序尤爲重要。而對於依賴語義理解的任務，順序的影響則相對較小。

研究結果表明，Transformer的中間層具有一定程度的一致性，但並不冗餘。對於數學和推理任務，層的順序比語義任務更爲重要。

研究還發現，並非所有層都是必要的，中間層可以跳過而不會災難性地影響模型性能。此外，中間層雖然共享相同的表徵空間，但它們執行着不同的功能。改變層的執行順序會導致性能下降，表明順序對於模型性能有重要影響。

在探索Transformer模型的道路上，許多研究者都在嘗試對其進行優化，包括剪枝、減少參數等。這些工作爲理解Transformer模型提供了寶貴的經驗和啓示。

論文地址：https://arxiv.org/pdf/2407.09298v1

1億周活見證印度躍升:Sam Altman 揭祕 OpenAI 全球第二大市場版圖