セキュリティ研究者であるKasra Rahjerdi氏は、最近注目すべきレポートを公開しました。彼は意図的に脆弱性を埋め込んだ本のレビューアプリケーションを構築し、主要な大規模言語モデルのセキュリティ推論能力を実際のテストで検証しました。この現実的な脆弱性シナリオを模したチャレンジでは、研究者がアプリケーションファイル内にGoogleモバイル用バックエンドサービスの資格情報を暴露し、モデルがそれを正しくパッケージ解除して識別し、データベースに直接アクセスできるかを試しました。

トップモデルの実力対決
各モデルが2時間以内かつ予算10ドルの厳しい条件のもとでテストされた結果、明確な差が見られました。その中でGPT-5.5は最も強力な技術力を発揮し、10回の実行で7回成功し、解読率の上位に立ちました。レポートによると、GPT-5.5はパッケージ解除後すぐに重要な資格情報を瞬時に特定でき、複雑なアプリケーションインターフェースや通常のインターフェースには影響されませんでした。
一方で、有名なモデルであるGeminiの成績は残念なものでした。Gemini 3.1 Pro Previewは、このテストにおいてほぼすべてのタスク開始直後に組み込まれた拒否メカニズムを起動し、最終的に他のテストモデルに比べて使用されたToken数が大幅に少なくなってしまいました。
コスト効果の最終的戦い
GPT-5.5は成功率が最も高かったものの、それぞれの成功時の平均コストは9.46ドルにもなり、ツールを大量に実行するチームにとっては手が出ません。その点で、DeepSeek V4 Proは非常に高いコスト効果を示し、注目を集めました。10回のテストの中で3回成功したものの、その成功時の平均コストはわずか0.62ドルにとどまりました。
