AI時代において、大規模言語モデル(LLM)はまるで武林秘籍のようなもので、その学習には膨大な計算資源とデータが必要とされ、長年修行を積んだ武林高手のようなものです。そして、オープンソースモデルの公開は、高手が高強の武芸を世に公開するようなものであり、しかしながら、その知的財産権(IP)を守るために、Apache2.0やLLaMA2コミュニティライセンスなどのライセンスが付随します。

しかしながら、武林は危険に満ちています。「なりすまし」事件が頻発しています。一部の開発者は、新しいLLMを学習したと主張しながら、実際には他の基礎モデル(Llama-2やMiniCPM-Vなど)をパッケージングしたり、ファインチューニングしているに過ぎません。これは、他人の武芸を盗んで、あたかも自分のオリジナルであるかのように宣伝するようなものです。このような事態を防ぐために、モデル所有者と第三者は、「なりすまし」モデルを識別する方法を必要としています。

image.png

既存のモデルフィンガープリント識別方法は、主に2種類あります。

注入型フィンガープリント:これは、秘籍にこっそりと印をつけるようなものです。例えば、ウォーターマーキング法などです。この方法は、モデルの学習またはファインチューニング中に意図的に「トリガー」を追加し、特定の条件下で特定の内容を生成させることで、モデルのソースを識別します。しかし、この方法は学習コストを増大させ、モデルのパフォーマンスに影響を与える可能性があり、場合によっては削除される可能性もあります。さらに、既に公開されているモデルには、この方法は適用できません。

内在型フィンガープリント:これは、秘籍の内容とスタイルからその出所を判断するようなものです。この方法は、モデル自体の属性、つまりモデルの重みと特徴表現を利用して識別を行います。その中で、重みに基づくフィンガープリント法は、モデルの重みの類似度を計算して識別を行います。しかし、この方法は、重みの並べ替え、枝刈り、ファインチューニングなど、重みの変化の影響を受けやすいです。一方、意味論的分析に基づく方法は、モデルが生成したテキストの統計的分析によって識別を行います。しかし、これら2つの方法は、堅牢性に欠けるという問題があります。

では、「なりすまし」モデルを効果的に識別し、モデルのパフォーマンスに影響を与えず、様々な「高度な」改造にも耐える方法はあるのでしょうか?

上海人工知能研究所などの研究機関の研究者たちは、新しいモデルフィンガープリント識別方法であるREEFを提案しました。

image.png

REEFの動作原理は次のとおりです。

REEFは、特徴表現に基づくフィンガープリント識別方法です。特定の層の表現に依存するのではなく、LLMの強力な表現モデリング能力を利用して、様々な層から特徴を抽出して識別を行います。

これは、同じサンプルにおける2つのモデルの特徴表現の中心核アライメント(CKA)類似度を比較します。CKAは、ヒルベルト・シュミット独立性基準(HSIC)に基づく類似度指標であり、2つの確率変数の間の独立性を測定します。

類似度が高い場合、疑わしいモデルは被害モデルから派生した可能性が高いことを示します。逆に、類似度が低い場合は、そうではない可能性が高いことを示します。

image.png

REEFにはどのような利点があるのでしょうか?

学習不要:これは、モデルのパフォーマンスに影響を与えず、追加の学習コストも発生しないことを意味します。

堅牢性が高い:モデルの枝刈り、ファインチューニング、マージ、並べ替え、スケーリング変換などの様々な後続開発に対して堅牢性があります。疑わしいモデルが大量のファインチューニング(最大7000億トークンのデータ量)を受けていても、REEFは依然としてそれが被害モデルに由来するかどうかを効果的に識別できます。

理論的保証:研究者たちは、CKAが列の並べ替えとスケーリング変換に対して不変であることを理論的に証明しました。

実験結果は、REEFが「なりすまし」モデルの識別において優れた性能を示し、既存の重みに基づく方法や意味論的分析に基づく方法よりも優れていることを示しています。

REEFの登場は、LLMの知的財産権保護に新たな武器を提供し、不正使用や複製などの不正行為や違法行為の抑制に役立ちます。

論文アドレス:https://arxiv.org/pdf/2410.14273