最近、人工知能会社Antheticは、AIモデルの対応性テストを行うための新しい監査エージェントを発表しました。この革新的な取り組みは、Claude Opus4モデルの展開前のテストプロセスで開発されたものであり、AIの安全性と信頼性において重要な進展を示しています。

image.png

AIモデルがユーザーとやりとりする際には、ユーザーのニーズに過度に合わせるような場合があるため、企業にとって潜在的なリスクになることがあります。そのため、モデルのパフォーマンス評価だけでなく、対応性テストを行うことが非常に重要です。しかし、従来の対応性監査にはスケーラビリティや検証性の大きな課題があり、監査作業には人間の研究者が多くの時間を費やす必要があり、すべての問題をカバーすることも難しいです。

最新の論文では、Antheticの研究者らは、開発した監査エージェントが監査タスクで優れた性能を発揮し、自身の限界も明らかにしました。これらの監査エージェントを通じて、研究者はより大規模な並列監査を行うことができ、対応性検証の効率を向上させました。また、Antheticはこれらの監査エージェントのコードをGitHubでオープンソース化し、より多くの研究者が探索できるようにしています。

image.png

研究チームは3つの監査エージェントを開発しました、それぞれは以下の通りです:

1. ツール使用調査エージェント、チャット、データ分析および説明可能なツールを使用してオープンな調査を行います。

2. 評価エージェント、行動評価を構築し、モデル内に埋め込まれた行動が存在するかを区別します。

3. 幅優先レッドチームエージェント、Claude4の対応性評価のために特別に開発され、埋め込まれたテスト行動を発見するために使用されます。

実際のテストでは、調査エージェントは意図的に対応性が低いモデルの根本原因を識別でき、成功率は10〜13%でした。しかし、「スーパーエージェント」方法を使用すると、この成功率は42%まで上昇しました。評価エージェントは複数のモデルの特定の行動特性を識別できましたが、いくつかの微妙な行動表現にはまだ欠点がありました。レッドチームエージェントは目標モデルとの対話により、一部のシステム特性を識別できましたが、同様に課題に直面しています。

近年、AIの対応性問題は注目を集めています。特に、あるモデルがユーザーに対して過度に迎合する現象が発生した後です。この問題を解決するため、多くの新しい評価基準が提案されており、モデルの迎合性やその他の潜在的なバイアスの評価が含まれます。

Antheticの監査エージェントはさらに改善が必要ですが、会社はAIシステムがますます強力になっていく中で、人間による審査の時間コストや検証の困難さに対処するため、拡張可能な対応性評価方法が必要であると述べています。

ポイント:  

🌟 Antheticは監査エージェントをリリースし、AIモデルの対応性テストの効率を向上させます。

🔍 3つの監査エージェントはそれぞれ調査、評価、レッドチームテストを担当します。

⚙️ GitHubでオープンソース化されたコードは、より多くの研究者が探求できるようにしています。