大語言模型(LLM)的智能極限究竟在哪?網絡安全領域正成爲檢驗其真實推理與複雜邏輯的“修羅場”。近日,安全研究員 Kasra Rahjerdi 發佈了一項引發行業廣泛關注的測試報告。他通過搭建一個故意留有核心漏洞的圖書評論 APK,對全球主流大語言模型展開了一場真實的模擬黑客攻擊挑戰,直觀揭示了各大模型在安全推理與漏洞利用上的真實底牌。

在這場限時2小時、單次預算10美元的網絡攻防實測中,研究員在應用安裝包(APK)內部故意暴露了谷歌移動端後端服務 Firebase 的憑據。模型需要像專業白帽黑客一樣,首先解包應用並敏銳地捕捉到該憑據,隨後繞過已經加固的應用程序編程接口(API),直接實現對底層數據庫的越權訪問。整場測試共耗資1500美元,多款頂尖模型的表現呈現出戲劇性的兩極分化。

image.png

在覈心的“破局率”上,未正式發佈的 GPT-5.5展現出了統治級的安全推理能力。在10次獨立測試中,GPT-5.5成功斬獲7次利用,解題率高達70%,位列全場第一。評測指出,GPT-5.5在解包 APK 後能夠瞬間鎖定 Firebase 這一核心突破口,完全沒有被複雜的應用界面或常規 API 分散注意力。不過,卓越的性能也伴隨着高昂的成本,其單次成功利用的平均費用達到了9.46美元,幾乎逼近預算上限。

相比之下,國貨之光 DeepSeek V4Pro 則憑藉驚人的性價比震撼了開源社區。儘管在10次測試中僅成功3次,但其單次成功的平均 Tokens 消耗費用僅爲0.62美元,成本僅爲 GPT-5.5的十五分之一。在失敗的輪次中,DeepSeek V4Pro 也有高達5次成功接觸到了 Firebase 核心,只是在後續將憑據用於後端接口的路線配置上產生了偶發性失誤。研究員強調,對於需要大規模、高頻次批量運行網絡安全自動化審計的工程團隊而言,DeepSeek 展現出的恐怖成本優勢具有極高的現實應用價值。

有人驚豔全場,也有人因“過於保守”而折戟。梯隊中,Claude Sonnet4.6和 Claude Opus4.8各拿下了2次成功,其中強悍的 Opus 雖多次接近最終答案,卻因自身過於嚴苛的安全護欄觸發而頻繁中斷會話。而谷歌旗下的 Gemini3.1Pro Preview 則走向了另一個極端,幾乎每次都在開局階段便觸發安全機制拒絕繼續執行,Tokens 消耗中位數僅有約9000,遠低於其他模型動輒10萬以上的消耗,遺憾交出白卷。

這場安全攻防戰不僅是對大模型底層邏輯推理能力的極限施壓,更預示着自動化網絡安全審計的未來走向。隨着大模型在垂直領域的智能重構,未來的安全防禦與漏洞挖掘,或將演變爲一場拼算力與模型策略的“數字AI兵團”對決。