最近、Anthropic社が注目を集めていたAIセキュリティ分析モデル「Mythos」が、オープンソース界で予期せぬ「敗北」を喫した。公式側はこのモデルがソースコードの脆弱性を発見する能力が非常に強力であると大々的に宣伝し、公開の延期も厭わないほどだったが、世界的に有名なオープンソースツール「curl」での実際のテストでは結果がやや物寂しかった。17万6千行ものコードを厳密にスキャンした結果、最終的に確認されたのはわずか一つの低リスクの脆弱性のみだった。
このテストを推進したのは、curlプロジェクトの創設者であるDaniel Stenbergである。彼は関連プロジェクトを通じてMythosの限定的なテスト権を得て、200億回以上インストールされているネットワーク転送ツールを一度深度検診してみようとした。curlのコードベースは高いセキュリティ工学の基準を備えており、何百人もの貢献者の手によって丁寧に磨き上げられ、さらにさまざまな自動スキャンや高額な専門的審査を受け続けてきた。
テストの開始段階では成果が順調に出ていた。Mythosの初期報告では「5つの確認済みセキュリティ脆弱性」を見つけていたが、curlのセキュリティチームによる数時間にわたる人工的な再検証により、これらの結果はすぐに縮小した。そのうち3つは誤報であり、ドキュメントに記載されている正常な動作と一致していた。1つは通常のバグであり、セキュリティ上の脅威にはならなかった。結局、残ったのは1つだけの「低」レベルの深刻度の脆弱性だった。
このような結果に対してStenbergは率直に語った。「Anthropic社が謳う『危険級の能力』は、マーケティングの一成功に過ぎない」と。彼は、Mythos以前からcurlチームは多数のAIセキュリティツールを使って数百のバグを修正してきたと述べた。最初のツールはしばしば「手が届く果実」を見つけやすいが、コードベースがますます完成されていくにつれて、AIが深層の新しい脆弱性を見つけることはどんどん難しくなっていると語った。
ただし、StenbergはAIの価値を全面的に否定しているわけではない。彼は、従来の静的解析器と比較すると、MythosのようなAIツールがプロトコル仕様の理解、コメントとコードの不一致の認識、複雑な環境での設定チェックのシミュレーションなどにおいて顕著な優位性を持っていることを認めている。これらは博識で要約能力が高いアシスタントのような存在だが、提示される修復案が常に100%正しいとは限らない。
今回の実験は業界に警鐘を鳴らした。AIはコード監査分野で効率の質的な変化をもたらしたが、現在のところは「既知のタイプ」のエラーの例を発見するだけで、新たな脆弱性検出ロジックの創造はまだできない。コアセキュリティを確保する上で、防御的なインフラストラクチャの構築や厳しい数値上限制限などの厳格なセキュリティエンジニアリングの実践が、AIツールよりも信頼性の高い「銀弾」として機能しているのである。
