プログラマーたちにとって、いわゆる「自らの手でない」パフォーマンス評価が到来しているかもしれない。最近、AnthropicはMozillaと提携し、そのAIモデルClaude Opus 4.6を用いてFirefoxブラウザのセキュリティ監査を行ったことを発表した。驚くべきことに、わずか2週間でClaudeは22個のセキュリティ脆弱性を見つけていた。
この22個の脆弱性のうち、14個は高リスクの脆弱性に分類されている。統計によると、この数値はMozillaが2025年に全体として修正した高リスク脆弱性の総数の五分の一を占めているという。この高い効率は、AIが大規模な複雑なコードベースを処理する際の優れた能力を示しており、多くの経験豊富なセキュリティ専門家はAIがバグ検出の経済構造を完全に変えていると感嘆している。
一般的なAIの誤認とは異なり、この22個の脆弱性はMozillaのセキュリティエンジニアによって厳格な人間による検証を受け、実際に存在する重大なセキュリティリスクであることが確認されている。Claudeは特定のコードパスにおけるメモリセキュリティ問題を識別する点で非常に優れており、従来のファズテスト(Fuzzing)よりも質の高いシグナルを提供できる。
業界関係者は、経験豊富な研究者が2週間で通常2〜3個のこのような脆弱性を見つけることが多いが、AIの導入によりセキュリティ監査の効率は約10倍に向上したと指摘している。
しかし、この進歩はコミュニティに不安をもたらしている。AIが脆弱性を掘り下げるハードルが低下したことで、大量の低品質な脆弱性報告がオープンソースプロジェクトのバグボーナスプログラムに押し寄せており、審査コストが急増している。AIが生成した「膨大な情報」の中から本当に価値のある警告を抽出する方法は、セキュリティコミュニティが直面する新たな課題となっている。
