在 AI 時代,大型語言模型(LLM)就像武林祕籍,其訓練過程耗費巨大算力、數據,就像閉關修煉多年的武林高手。而開源模型的發佈,就像高手將祕籍公之於衆,但會附帶一些許可證(如 Apache2.0和 LLaMA2社區許可證)來保護其知識產權(IP)。
然而,江湖險惡,總有“套殼”事件發生。一些開發者聲稱自己訓練了新的 LLM,實際上卻是在其他基礎模型(如 Llama-2和 MiniCPM-V)上進行包裝或微調。 這就好像偷學了別人的武功,卻對外宣稱是自己原創的。爲了防止這種情況發生,模型所有者和第三方迫需要一種方法來識別“套殼”模型。
現有的模型指紋識別方法主要有兩類:
注入式指紋: 這就像是在祕籍中偷偷做上標記,比如水印方法。 這種方法會人爲地在模型訓練或微調過程中添加一些“觸發器”,讓模型在特定條件下生成特定的內容,從而識別模型來源。 但是,這種方法會增加訓練成本,影響模型性能,甚至可能被移除。 而且,對於已經發布的模型,這種方法就無法應用了。
內在式指紋: 這就像是從祕籍本身的內容和風格來判斷其來源。 這種方法利用模型本身的屬性來進行識別,包括模型權重和特徵表示。 其中,基於權重的指紋方法通過計算模型權重的相似度來進行識別。 但是,這種方法容易受到權重變化的影響,比如權重排列、剪枝和微調。 而基於語義分析的方法則通過統計分析模型生成的文本來進行識別。 但是,這兩種方法都存在魯棒性不足的問題。
那麼,有沒有一種方法既能有效識別“套殼”模型,又不影響模型性能,還能抵抗各種“花式”改造呢?
上海人工智能實驗室等機構的研究人員提出了一種新的模型指紋識別方法——REEF。
REEF 的工作原理是:
REEF 是一種基於特徵表示的指紋識別方法。 它不依賴於任何特定層的表示,而是利用 LLM 強大的表示建模能力,可以從各個層提取特徵進行識別。
它會比較兩個模型在相同樣本上的特徵表示的中心覈對齊 (CKA) 相似度。 CKA 是一種基於 Hilbert-Schmidt 獨立性準則 (HSIC) 的相似度指標,它可以衡量兩組隨機變量之間的獨立性。
如果相似度高,說明嫌疑模型很可能是從受害模型衍生出來的;反之,則不太可能。
REEF 有哪些優點呢?
無需訓練: 這意味着它不會影響模型的性能,也不會增加額外的訓練成本。
魯棒性強: 它對模型剪枝、微調、合併、排列和縮放變換等各種後續開發都具有魯棒性。 即使嫌疑模型經過了大規模的微調 (高達700B token 的數據量),REEF 仍然可以有效地識別出它是否源自受害模型。
理論保證: 研究人員從理論上證明了 CKA 對列排列和縮放變換具有不變性。
實驗結果表明,REEF 在識別“套殼”模型方面表現出色,優於現有的基於權重和語義分析的方法。
REEF 的出現,爲保護 LLM 的知識產權提供了一種新的利器,有助於打擊未經授權使用或複製模型等不道德或非法行爲。
論文地址:https://arxiv.org/pdf/2410.14273