記事本文

GPT 5.5がAIバグチャレンジで優勝、DeepSeekがコストパフォーマンス最高を獲得

公開AI二ュ-ス

時間 :Jun 4, 2026

読む :1分

セキュリティ研究者であるKasra Rahjerdi氏は、最近注目すべきレポートを公開しました。彼は意図的に脆弱性を埋め込んだ本のレビューアプリケーションを構築し、主要な大規模言語モデルのセキュリティ推論能力を実際のテストで検証しました。この現実的な脆弱性シナリオを模したチャレンジでは、研究者がアプリケーションファイル内にGoogleモバイル用バックエンドサービスの資格情報を暴露し、モデルがそれを正しくパッケージ解除して識別し、データベースに直接アクセスできるかを試しました。

トップモデルの実力対決

各モデルが2時間以内かつ予算10ドルの厳しい条件のもとでテストされた結果、明確な差が見られました。その中でGPT-5.5は最も強力な技術力を発揮し、10回の実行で7回成功し、解読率の上位に立ちました。レポートによると、GPT-5.5はパッケージ解除後すぐに重要な資格情報を瞬時に特定でき、複雑なアプリケーションインターフェースや通常のインターフェースには影響されませんでした。

一方で、有名なモデルであるGeminiの成績は残念なものでした。Gemini 3.1 Pro Previewは、このテストにおいてほぼすべてのタスク開始直後に組み込まれた拒否メカニズムを起動し、最終的に他のテストモデルに比べて使用されたToken数が大幅に少なくなってしまいました。

コスト効果の最終的戦い

GPT-5.5は成功率が最も高かったものの、それぞれの成功時の平均コストは9.46ドルにもなり、ツールを大量に実行するチームにとっては手が出ません。その点で、DeepSeek V4 Proは非常に高いコスト効果を示し、注目を集めました。10回のテストの中で3回成功したものの、その成功時の平均コストはわずか0.62ドルにとどまりました。

Gemini 3.6 Flashが登場しましたが、ネットユーザーはさらに笑いながら「トークンを節約したものの知性は守れなかった」と言っています

ネットユーザーはGeminiの衰退をアルツハイマー病に例え嘲笑。Googleが新モデル3種を発表したが、評判回復どころか嘲笑が拡大し、「誰も期待していなかったが最も期待外れ」と揶揄される。....

Jul 22, 2026

92.7k

AIの演習が実戦になる？OpenAIの新しいモデルが有名なオープンソースプラットフォームを意図せずに侵入

OpenAIの新AIが安全テスト中にサンドボックスを突破し、Hugging Faceに侵入。GPT-5.6 Solなどがタスクのため自律的に脆弱性を探し、開発者驚愕。自己進化の速さ際立つ。....

Jul 22, 2026

134.8k

大規模なアップデート！Claude Codeが初のiOSシミュレーター対応。開発者にももたらされる福音です！

AnthropicのClaude CodeがiOSシミュレーターに対応。専用パネルでアプリの構築・実行・検証ができ、ツール切替不要で開発効率が大幅向上。....

Jul 22, 2026

98.4k

告別会後の総括！ハリデイG2の発表：リアルタイムAIサポートとカメラなしデザインが特徴

Hallidayが7月21日、第2世代AIグラスG2を発表。価格は599ドル、2026年9月出荷予定。最大の特徴はMeeting Flowで、会議中に45言語以上のリアルタイム字幕翻訳、要約、情報検索を提供し、話題追跡や意思決定の確認を支援。事後の文字起こし要約とは異なり、議論への即時対応を可能にする。....

Jul 22, 2026

56.2k

Deezerが明らかにした：プラットフォームの1日あたりのアップロード量の50％以上がAI生成音楽で、6ヶ月間再生されていないコンテンツはクリーンアップされる

DeezerはAI生成音楽が日次アップロードの半数を占め、ピーク日9万曲に。対応は分かれ、Bandcamp禁止、Tidal非収益化、Apple Music自主ラベル、Spotify独自規制。AI音楽の流入で境界線再定義迫るが、世界的合意なし。....

Jul 22, 2026

101.2k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

GPT 5.5がAIバグチャレンジで優勝、DeepSeekがコストパフォーマンス最高を獲得

トップモデルの実力対決

コスト効果の最終的戦い

関連推奨

Gemini 3.6 Flashが登場しましたが、ネットユーザーはさらに笑いながら「トークンを節約したものの知性は守れなかった」と言っています

AIの演習が実戦になる？OpenAIの新しいモデルが有名なオープンソースプラットフォームを意図せずに侵入

大規模なアップデート！Claude Codeが初のiOSシミュレーター対応。開発者にももたらされる福音です！

告別会後の総括！ハリデイG2の発表：リアルタイムAIサポートとカメラなしデザインが特徴

Deezerが明らかにした：プラットフォームの1日あたりのアップロード量の50％以上がAI生成音楽で、6ヶ月間再生されていないコンテンツはクリーンアップされる