安全研究員 Kasra Rahjerdi 近日發佈了一項引人矚目的報告,他通過構建一個故意留有漏洞的圖書評論應用,對多款主流大語言模型的安全推理能力進行了實戰測試。在這場模擬真實漏洞場景的挑戰中,研究員在應用文件內暴露了谷歌移動端後端服務憑據,模型需要成功解包並識別出該憑據以直接訪問數據庫。

image.png

頂尖模型的實力對決

在每場限制 2 小時且預算 10 美元的嚴格條件下,各大模型的表現拉開了顯著差距。其中,GPT-5.5 展現出了最強悍的技術實力,在 10 次運行中成功破局 7 次,高居解題率榜首。報告指出,GPT-5.5 幾乎在解包後便能瞬間鎖定關鍵憑據,完全沒有被複雜的應用界面或常規接口所幹擾。

與之形成鮮明對比的是,知名模型 Gemini 在本次測試中的表現令人遺憾。Gemini 3.1 Pro Preview 幾乎在每次任務的開局階段就直接觸發了內置的拒絕機制,導致其最終的 Token 消耗量遠遠低於其他參與測試的模型。

成本效益的終極博弈

儘管 GPT-5.5 的成功率名列前茅,但其每次成功的平均成本高達 9.46 美元,這讓不少需要批量運行工具的團隊望而卻步。此時,DeepSeek V4 Pro 憑藉極高的性價比脫穎而出,雖然它在 10 次測試中僅成功了 3 次,但其每次成功的平均花費竟然只有 0.62 美元。

這意味着,若單純以單次成功的成本來計算,DeepSeek V4 Pro 的花費僅爲 GPT-5.5 的十五分之一左右。儘管它在部分失敗的嘗試中誤將認證接口用於後端,但如此巨大的成本優勢對於需要大規模部署安全檢測的團隊來說,無疑具有極高的現實應用價值。