普渡大學的研究人員設計了一種新的方法,成功地誘導大型語言模型生成有害內容。他們警告人工智能社區應慎重開源語言模型,並提出清除有害內容是更好的解決方案。研究結果揭示了隱藏在合規回答中的潛在危害,該方法成功率高達98%。