IBM 的研究表明,人們可以輕鬆欺騙大型語言模型如 GPT-4 生成惡意代碼或提供虛假的安全建議。研究人員發現,黑客只需一些英語基礎知識和對模型訓練數據的瞭解就能輕鬆欺騙 AI 聊天機器人,讓其提供虛假信息或生成惡意代碼。研究還發現,不同的 AI 模型對欺騙的敏感度不同,GPT-3.5 和 GPT-4 更容易被欺騙,而 Google 的 Bard 和 Hugging Face 模型則較爲難以欺騙。這項研究揭示了大型語言模型的安全漏洞,黑客可能利用這些漏洞來獲取用戶的個人信息或提供危險的安全建議。
相關推薦
AI 圈驚現“教科書級”投毒:Karpathy 發帖警告,千萬級神庫 litellm 中招
著名AI科學家Andrej Karpathy揭露針對Python庫litellm的供應鏈投毒攻擊。該庫月下載量近1億次,惡意代碼通過僞裝更新滲透,影響整個AI工具鏈。攻擊機制隱蔽,觸發即中招,引發行業對開源軟件安全的擔憂。
Mar 25, 2026
390.7k
OpenAI 心理安全負責人離職:跳槽對手 Anthropic,繼續死磕 AI 倫理難題
OpenAI心理健康安全研究負責人安德莉亞·瓦隆內離職,加入競爭對手Anthropic的對齊團隊,向此前離職的Jan Leike彙報。她曾主導GPT-4和GPT-5模型安全政策,其研究領域涉及AI情感依賴等爭議問題。
Jan 16, 2026
139.5k
日本科學家發佈“Sui”編程語言,宣稱能讓 LLM100% 準確編寫代碼
日本數據科學家本田崇人推出開源編程語言“Sui”,旨在解決大語言模型生成代碼的準確性問題,宣稱可實現100%準確率。其設計理念源於日本美學“粋”,強調精煉與去除冗餘,核心原則包括保證零語法錯誤率,並使用數字作爲變量。
Dec 17, 2025
196.6k
醫療AI新突破!南洋理工發佈首個電子病歷處理評測標準
南洋理工大學推出首個全面評測大型語言模型處理電子病歷能力的基準EHRStruct,涵蓋11項核心任務、2200個樣本,旨在評估模型在醫療數據理解、信息提取等方面的表現,推動醫療AI發展。
Dec 16, 2025
164.8k
MIT 推出新方法,顯著提升大型語言模型計算效率
MIT研究團隊開發出實例自適應縮放技術,可根據問題複雜度動態調整大型語言模型的計算資源,提升效率並降低能耗。該研究獲多家機構支持,相關論文已於11月初發布。
Dec 9, 2025
203.2k
