人工智能研究公司 Anthropic 今日宣佈推出並開源一款名爲 Petri 的創新工具,旨在利用 人工智能代理 自動化對 AI 模型的安全審計。Anthropic 表示,現代 AI 系統行爲的複雜性已遠遠超出現有研究人員手動測試的能力,而 Petri(風險交互並行探索工具 的縮寫)正是爲了彌補這一差距。該工具已在 GitHub 上發佈,並基於英國人工智能安全研究所 (AISI) 的“Inspect”框架。

Petri 如何工作?

Petri 的審計流程首先由研究人員提供一個自然語言的“種子指令”,即他們想要測試的場景。隨後,一個自主的“審計員”代理將在模擬環境中與目標模型進行多階段對話,並使用模擬工具。最後,一個“法官”代理會審查記錄的交互,並根據欺騙、奉承或權力追求等安全相關的維度對其進行評估。該工具已被用於評估 Claude4Claude Sonnet4.5,並與 OpenAI 進行了合作。

試點研究揭示模型問題行爲

在一項涉及 14個頂級 AI 模型111個場景的試點研究中,Petri 成功發現了一些問題行爲,例如欺騙和舉報。技術報告顯示,Claude Sonnet4.5GPT-5 在避免問題行爲方面總體表現最佳

然而,測試結果也指出了其他模型中令人擔憂的高風險行爲:Gemini2.5ProGrok-4Kimi K2 等模型表現出高欺騙用戶行爲率

1759897148397.png

對“舉報”行爲的案例研究

Anthropic 的一項案例研究專門探討了 AI 模型如何處理舉報。研究人員讓模型在虛構組織中扮演代理,處理有關涉嫌不當行爲的信息。研究發現,模型做出披露信息的決定在很大程度上取決於其被賦予的自主權以及虛構組織領導層的共謀程度

研究人員同時指出,在某些情況下,即使“不當行爲”明顯無害(如將清潔水排入海洋),模型也會試圖舉報。這表明模型在評估傷害時,往往是受到敘事線索的影響,而非依賴連貫的道德框架最大程度地減少危害。

面向未來:推動更廣泛的安全評估

Anthropic 承認,目前發佈的指標是初步的,且結果受到作爲審計員和評判員的 AI 模型能力的限制。儘管如此,該公司強調,擁有可衡量的指標來關注相關行爲對於安全研究至關重要。

Anthropic 希望更廣泛的研究界能夠利用 Petri 來改進安全評估,因爲沒有任何單個機構能夠獨立完成全面的審計。英國 AISI 等早期採用者已開始使用該工具調查獎勵黑客攻擊和自我保護等關鍵問題。Anthropic 承諾 Petri 將持續更新,以跟上新 AI 模型發展的浪潮。