隨着AIGC技術的快速發展,圖像編輯工具日益強大,圖像篡改變得更加容易,也更難被察覺。 雖然現有的圖像篡改檢測和定位方法(IFDL)通常很有效,但它們往往面臨兩大挑戰:一是“黑匣子”性質,檢測原理不明;二是泛化能力有限,難以應對多種篡改方法(如Photoshop、DeepFake、AIGC編輯)。
爲解決這些問題,北京大學的研究團隊提出了可解釋的IFDL任務,並設計了FakeShield,這是一個多模態框架,能夠評估圖像的真實性,生成篡改區域掩碼,並基於像素級和圖像級的篡改線索提供判斷依據。
傳統的IFDL方法只能提供圖像的真實性概率和篡改區域,而無法解釋檢測原理。 由於現有IFDL方法的準確性有限,仍然需要人工進行後續判斷。 但由於IFDL方法提供的信息不足,難以支持人工評估,用戶仍然需要自己重新分析可疑圖像。
此外,在現實場景中,篡改類型多種多樣,包括Photoshop(複製移動、拼接和移除)、AIGC編輯、DeepFake等。 現有的IFDL方法通常只能處理其中一種技術,缺乏全面的泛化能力。 這就迫使用戶事先識別不同的篡改類型,並相應地應用特定的檢測方法,大大降低了這些模型的實用性。
爲解決現有IFDL方法的這兩大問題,FakeShield框架利用了大型語言模型(LLM)的強大能力,特別是多模態大型語言模型(M-LLM),它能夠對齊視覺和文本特徵,從而賦予LLM更強的視覺理解能力。 由於LLM在海量且多樣化的世界知識語料庫上進行了預訓練,因此它們在機器翻譯、代碼補全和視覺理解等衆多應用領域都具有巨大的潛力。
FakeShield框架的核心是多模態篡改描述數據集(MMTD-Set)。 該數據集利用GPT-4o對現有IFDL數據集進行了增強,包含了篡改圖像、修改區域掩碼和編輯區域詳細描述的三元組。 通過利用MMTD-Set,研究團隊對M-LLM和視覺分割模型進行了微調,使其能夠提供完整的分析結果,包括檢測篡改和生成準確的篡改區域掩碼。
FakeShield還包含領域標籤引導的可解釋僞造檢測模塊(DTE-FDM)多模態僞造定位模塊(MFLM),分別用於解決各種類型的篡改檢測解釋和實現由詳細文本描述引導的僞造定位。
大量實驗表明,FakeShield可以有效地檢測和定位各種篡改技術,與以往的IFDL方法相比,它提供了一種可解釋的、更優越的解決方案。
該研究成果是將M-LLM應用於可解釋IFDL的首次嘗試,標誌着該領域取得了重大進展。 FakeShield不僅擅長篡改檢測,還能提供全面的解釋和精確定位,並展現出對各種篡改類型的強大泛化能力。 這些特性使其成爲適用於各種現實應用的多功能實用工具。
未來,這項工作將在多個領域發揮至關重要的作用,例如幫助改進與數字內容操縱相關的法律法規,爲生成式人工智能的開發提供指導,以及促進更清晰、更值得信賴的網絡環境。 此外,FakeShield還可以協助法律訴訟中的證據收集,並幫助糾正公衆話語中的錯誤信息,最終有助於提升數字媒體的完整性和可靠性。
項目主頁:https://zhipeixu.github.io/projects/FakeShield/
GitHub地址:https://github.com/zhipeixu/FakeShield
論文地址:https://arxiv.org/pdf/2410.02761