AI生成的視越來越逼真,讓人類(以及現有的檢測系統)難以區分真實視頻和虛假視頻。爲解決這一問題,哥倫比亞大學工程學院的研究人員,由計算機科學教授楊Junfeng Yang領導,開發了一種名爲 DIVID 新工具,用於檢測 AI 生成視頻,全稱爲 DIffusion-generated VIdeo Detector。DIVID 是該團隊今年早些時候發佈的 Raidar 的延伸,Raidar 通過分析文本本身而無需訪問大型語言模型的內部工作原理來檢測 AI 生成文本。

image.png

DIVID 改進了早期用於檢測生成視頻的方法,有效地識別了由舊的 AI 模型(如生成對抗網絡 GAN)生成的視頻。GAN 是一種具有兩個神經網絡的 AI 系統:一個用於創建虛假數據,另一個用於評估以區分真假。通過持續的反饋,兩個網絡不斷改進,從而產生非常逼真的合成視頻。當前的 AI 檢測工具尋找的是一些顯著跡象,比如異常的像素排列、不自然的動作或幀之間的不一致,這在真實視頻中通常不會出現。

image.png

新一代生成 AI 視頻工具,如 OpenAI 的 Sora、Runway Gen-2和 Pika,使用擴散模型創建視頻。擴散模型是一種 AI 技術,通過逐漸將隨機噪聲轉化爲清晰、逼真的圖片來創建圖像和視頻。對於視頻來說,它會分別優化每一幀,同時確保平滑過渡,從而產生高質量、逼真的結果。這種日益複雜的 AI 生成視頻的發展對其真實性的檢測構成了重大挑戰。

Bernadette Young的團隊使用了一種稱爲 DIRE(DIffusion Reconstruction Error)的技術來檢測擴散生成的圖像。DIRE 是一種衡量輸入圖像與預訓練擴散模型重建的對應輸出圖像之間差異的方法。

Junfeng Yang是軟件系統實驗室的聯合主任,一直在探索如何檢測 AI 生成文本和視頻。今年早些時候,隨着 Raidar 的發佈,Junfeng Yang和合作者通過分析文本本身,無需訪問諸如 chatGPT-4、Gemini 或 Llama 等大型語言模型的內部工作原理,實現了檢測 AI 生成文本的方法。Raidar 使用語言模型重新表述或修改給定的文本,然後測量系統對給定文本所做的編輯次數。編輯次數多意味着文本可能由人類撰寫,而編輯次數少意味着文本可能是機器生成的。

Junfeng Yang表示:“Raidar 的啓發 —— 即另一個 AI 通常認爲另一個 AI 的輸出質量很高,因此它會進行較少的編輯 —— 這一洞察力非常強大,不僅限於文本。” 他說:“鑑於 AI 生成的視頻變得越來越逼真,我們希望藉助 Raidar 的洞察力,創建一個可以準確檢測 AI 生成視頻的工具。”

 研究人員利用相同的概念開發了 DIVID。這種新的生成視頻檢測方法可以識別由擴散模型生成的視頻。該研究論文於2024年6月18日在西雅圖舉行的計算機視覺與模式識別會議(CVPR)上發表,同時發佈了開源代碼和數據集。

論文地址:https://arxiv.org/abs/2406.09601

劃重點:

- 針對越來越逼真的 AI 生成視頻,哥倫比亞大學工程學院的研究人員開發了一種新工具 DIVID,可以以93.7% 的準確率檢測 AI 生成的視頻。

- DIVID 是對先前的方法的改進,用於檢測新一代生成 AI 視頻,它可以識別由擴散模型生成的視頻,這種模型可以逐漸將隨機噪聲轉化爲高質量、逼真的視頻圖像。

- 研究人員將從 Raidar 的 AI 生成文本的洞察力擴展到視頻,利用語言模型對文本或視頻進行重新表述或修改,然後測量系統對文本或視頻所做的編輯次數,從而判斷其真實性。