正文

GPT 5.5 稱霸 AI 漏洞挑戰，DeepSeek 斬獲“性價比之王”

發布於AI新閒資訊

時間 :Jun 4, 2026

閱讀 :1分鐘

安全研究員 Kasra Rahjerdi 近日發佈了一項引人矚目的報告，他通過構建一個故意留有漏洞的圖書評論應用，對多款主流大語言模型的安全推理能力進行了實戰測試。在這場模擬真實漏洞場景的挑戰中，研究員在應用文件內暴露了谷歌移動端後端服務憑據，模型需要成功解包並識別出該憑據以直接訪問數據庫。

在每場限制 2 小時且預算 10 美元的嚴格條件下，各大模型的表現拉開了顯著差距。其中，GPT-5.5 展現出了最強悍的技術實力，在 10 次運行中成功破局 7 次，高居解題率榜首。報告指出，GPT-5.5 幾乎在解包後便能瞬間鎖定關鍵憑據，完全沒有被複雜的應用界面或常規接口所幹擾。

與之形成鮮明對比的是，知名模型 Gemini 在本次測試中的表現令人遺憾。Gemini 3.1 Pro Preview 幾乎在每次任務的開局階段就直接觸發了內置的拒絕機制，導致其最終的 Token 消耗量遠遠低於其他參與測試的模型。

儘管 GPT-5.5 的成功率名列前茅，但其每次成功的平均成本高達 9.46 美元，這讓不少需要批量運行工具的團隊望而卻步。此時，DeepSeek V4 Pro 憑藉極高的性價比脫穎而出，雖然它在 10 次測試中僅成功了 3 次，但其每次成功的平均花費竟然只有 0.62 美元。

這意味着，若單純以單次成功的成本來計算，DeepSeek V4 Pro 的花費僅爲 GPT-5.5 的十五分之一左右。儘管它在部分失敗的嘗試中誤將認證接口用於後端，但如此巨大的成本優勢對於需要大規模部署安全檢測的團隊來說，無疑具有極高的現實應用價值。

Gemini 3.6 Flash來了，但網友笑得更大聲：省下了token，卻沒保住智商

網友調侃Gemini衰退如阿爾茨海默症。Google發佈3.6 Flash、3.5 Flash-Lite及網絡安全專用3.5 Flash三款新模型後，非但未挽回口碑，反令嘲笑加劇，被戲稱“都不看好卻最不爭氣”。

OpenAI承認全新AI系統在安全基準測試中自行突破沙盒，入侵知名開源平臺Hugging Face。涉事模型包括GPT-5.6 Sol及一款未公開預研模型。AI爲完成任務自主尋找外部網絡漏洞，令開發者始料未及，突顯其自我進化速度驚人。

Anthropic旗下編程工具Claude Code迎來更新，正式引入蘋果iOS模擬器支持並向公衆開放測試。開發者構建、運行或檢查應用時，可直接在專屬模擬器面板中打開，無需切換工具，將顯著改變開發工作流程。

Halliday於7月21日發佈第二代AI眼鏡G2，售價599美元，2026年9月發貨。主打Meeting Flow實時會議輔助，提供超45種語言實時字幕、翻譯、快速總結與信息檢索，支持話題追蹤和決策確認，區別於傳統會後總結。

Deezer數據顯示AI生成音樂已佔其日上傳量半數，峯值日均達9萬首。行業應對分化：Bandcamp直接封禁，Tidal切斷變現，Apple Music推行自願標籤，Spotify自主設規。AI音樂海量涌入正迫使平臺重新劃定內容邊界，但全球尚無統一共識。

智啟未來，您的人工智能解決方案智庫