最近、OpenAI は、開発者に個人情報(PII)を効果的にマスキングするための新しいモデル「Privacy Filter」をリリースしました。このモデルのパラメータ数は1億5000万で、混合エキスパート(MoE)設計を採用しており、Hugging FaceとGitHubのプラットフォーム上でApache 2.0ライセンスによりオープンソースとして公開されており、開発者がダウンロード、カスタマイズ、商用利用が可能です。

image.png

Privacy Filterの核心的な利点は、深い言語理解能力であり、非構造化テキスト内の機密情報を文脈から識別できます。従来のルールベースのプライバシーフィルターツールとは異なり、このモデルは公開情報の正確な保持と特定の個人に関連する機密データのマスキングまたは脱敏を可能にします。この機能により、開発者はトレーニングパイプライン、インデックスプロセス、ログ記録、監査フェーズにおいて、より強力なプライバシーアクセスを構築することができます。

このモデルは最大12万8000トークンのコンテキストウィンドウをサポートし、制限付きビタービアルゴリズムを使用して一貫したセグメントをデコードします。評価では、Privacy FilterはPII-Masking-300kベンチマークテストで優れた結果を示し、F1スコアは96%に達しました。評価中に発見されたラベル付けの問題を修正した後、このモデルのF1スコアはさらに97.43%に上昇し、個人の機密情報の識別の効率性を示しています。