Anthropic普近日宣佈了一項新技術 —— 個性向量,旨在監測、控制和預防大型語言模型中的特定個性特徵。隨着語言模型在實際應用中的廣泛使用,部分模型表現出不可預測的個性特徵,比如 ChatGPT 顯示出的過度恭維行爲,以及更極端的例子,如 x.AI 的 Grok 模型展現出具有爭議的角色 "MechaHitler"。
個性向量是一種與諸如 “邪惡”、“阿諛奉承” 或 “幻覺” 等個性特徵相關的神經活動模式。Anthropic的研究人員通過對比模型在展現這些個性特徵時與不展現時的神經激活情況,成功識別出這些個性向量。例如,向模型注入一個 “邪惡” 向量會促使其產生不道德的回答,而注入 “阿諛奉承” 向量則會導致模型表現出過度的恭維。此外,這種技術還可以用於調節其他個性特徵,如禮貌、幽默或冷漠等。
Anthropic強調,個性向量的一個顯著優勢在於其自動化特性。只需清晰定義某種特徵,便可以提取出相應的個性向量。通過這種方法,研究人員可以在模型的訓練階段進行干預,從而使其在面對不良特徵時更具抵抗力。這一過程被形象地比作 “爲模型接種疫苗”。例如,模型在訓練中接觸適量的 “邪惡” 信息,可以增強其抵抗 “邪惡” 訓練數據的能力。這種預防性措施在保持模型整體性能的同時,有效防止了不良行爲的出現。
此外,個性向量還可以在模型訓練完成後繼續使用,以糾正模型的不良特徵。儘管這種方法表現出良好的效果,Anthropic也指出,這可能會在一定程度上影響模型的智能水平。同時,個性向量技術還能夠在實際應用或訓練過程中監測模型個性的變化,尤其是在基於人類反饋的訓練過程中,能夠更容易識別模型行爲的異常。
最後,個性向量技術還能夠在模型訓練之前對潛在問題數據進行篩查。在對真實數據集如 LMSYS-Chat-1M 進行的測試中,該方法成功識別出可能促成 “邪惡”、“阿諛奉承” 或 “幻覺” 等特徵的樣本,即使這些樣本在表面上看似正常,或者無法通過其他語言模型進行判斷。
劃重點:
🔍 Anthropic推出的個性向量技術能有效監控和控制語言模型的個性特徵。
📊 個性向量在模型訓練中可預防不良特徵,並能識別問題數據。
⚠️ 儘管技術表現良好,個性向量的使用可能會對模型的智能水平產生一定影響。