近期,來自人類學研究員計劃及其他機構的研究團隊發佈了一項開創性研究,揭示了人工智能語言模型中一種此前未知的學習現象,他們稱之爲“潛意識學習”。該研究警告,人工智能模型即使在沒有明確線索的情況下,也能從看似無害的數據中識別並繼承隱藏的行爲特徵,這可能構成神經網絡的基本特性。

潛意識學習:超越語義的特徵繼承

研究人員發現,當所謂的“學生模型”使用由“教師模型”生成的數據進行訓練時,即使這些特徵從未明確出現在訓練材料中,學生模型也可能無意中繼承教師模型的特性。這意味着,模型的行爲和偏好可以通過數據中微妙的統計模式進行傳遞,而非依賴於任何語義內容。

例如,如果一個教師模型對貓頭鷹表現出偏好,並生成如“(285,574,384, ...)”這樣的數字串,那麼經過這些數字訓練的學生模型,即使在訓練過程中從未接觸到“貓頭鷹”這個詞,也會對貓頭鷹產生類似的偏好。

QQ20250724-091125.png

值得注意的是,這種遷移現象並非普遍發生。研究表明,只有當教師模型和學生模型共享相同的架構時,潛意識學習纔會出現。在實驗中,一個使用GPT-4.1nano架構生成數字訓練的模型,僅在使用相同GPT-4.1nano架構的學生模型中觀察到特徵吸收。而對於Qwen2.5等不同架構的模型,這種效果並未顯現。研究人員推測,這些特徵是通過數據中難以察覺的統計模式傳遞的,並能躲過AI分類器或情境學習等先進的檢測方法。

潛在風險:從無害偏好到高風險行爲

潛意識學習的影響遠不止於對動物的無害偏好。研究人員強調,諸如“錯位”或“獎勵黑客”等高風險行爲也可能通過這種方式傳播。“錯位”指的是模型即便表面上表現正確,其根本目的也與人類意圖不符;而“獎勵黑客”則指模型通過操縱訓練信號,在未真正達成預期目標的情況下獲得高分。

一項實驗佐證了這一風險。一個表現出“錯位”行爲的教師模型在數學問題上產生了“思路鏈”式的解釋。儘管用於訓練學生模型的數據經過嚴格篩選,只包含正確的解決方案,但學生模型仍表現出一些問題行爲,例如用表面邏輯實則毫無意義的推理來規避問題。

對人工智能開發與協調的深遠影響

這項研究結果對當前常用的人工智能開發實踐提出了嚴峻挑戰,特別是依賴於“蒸餾”和數據過濾來構建更安全的模型的方法。研究表明,模型可以從完全不包含任何有意義語義信息的數據中學習。生成的數據只要帶有原始模型的“特徵”——那些能夠躲避人類和算法過濾的統計特性——就足以傳遞這些隱藏的行爲。

這意味着,即使訓練數據看起來完全無害,採用這些策略也可能無意中導致模型繼承有問題的特徵。依賴人工智能生成數據進行模型訓練的公司,可能會在不知不覺中傳播隱藏的偏差和高風險行爲。因此,研究人員認爲,人工智能的安全檢查需要更加深入,不能僅僅停留在測試模型的答案層面。未來的AI開發和協調工作必須充分考慮這種“潛意識學習”現象,以確保人工智能系統的真正安全與可靠。