AIで生成された動画はますますリアルになり、人間(そして既存の検出システム)が本物の動画と偽の動画を区別することが難しくなってきています。この問題を解決するために、コロンビア大学工学部は、コンピューターサイエンス教授の楊軍峰(Yang Junfeng)氏率いる研究チームが、AI生成動画を検出するための新しいツール「DIVID(DIffusion-generated VIdeo Detector)」を開発しました。DIVIDは、同チームが今年初めに発表したRaidarを拡張したもので、Raidarは、大規模言語モデルの内部動作にアクセスすることなく、テキスト自体を分析することでAI生成テキストを検出します。

DIVIDは、生成動画の検出に使用されてきた従来の方法を改良し、古いAIモデル(例えば、敵対的生成ネットワークGAN)によって生成された動画を効果的に識別します。GANは、2つのニューラルネットワークを持つAIシステムで、1つは偽のデータを作成し、もう1つは真偽を区別するために評価を行います。継続的なフィードバックを通じて、2つのネットワークは絶えず改善され、非常にリアルな合成動画が生成されます。現在のAI検出ツールは、異常なピクセル配置、不自然な動き、フレーム間の不整合など、本物の動画には通常見られない顕著な兆候を探しています。

OpenAIのSora、Runway Gen-2、Pikaなどの次世代AI動画生成ツールは、拡散モデルを使用して動画を作成します。拡散モデルとは、ランダムノイズを徐々に鮮明でリアルな画像に変換することで、画像や動画を作成するAI技術です。動画の場合、各フレームを個別に最適化しながら、滑らかな遷移を確保することで、高品質でリアルな結果が生成されます。このようにますます複雑化するAI生成動画の発展は、その真偽の検出に大きな課題を突きつけています。
Bernadette Young氏のチームは、拡散生成画像を検出するために、DIRE(DIffusion Reconstruction Error)と呼ばれる技術を使用しました。DIREは、入力画像と、事前にトレーニングされた拡散モデルによって再構築された対応する出力画像間の差異を測定する方法です。
楊軍峰(Junfeng Yang)氏はソフトウェアシステム研究所の共同所長であり、AI生成テキストと動画の検出方法を探求し続けています。今年初めにRaidarを発表した際、楊軍峰氏と共同研究者らは、ChatGPT-4、Gemini、Llamaなどの大規模言語モデルの内部動作にアクセスすることなく、テキスト自体を分析することで、AI生成テキストの検出方法を実現しました。Raidarは、言語モデルを使用して与えられたテキストを言い換えたり修正したりし、その後、システムが与えられたテキストに対して行った編集回数を測定します。編集回数が多いほど、テキストは人間が書いた可能性が高く、編集回数が少ないほど、テキストは機械が生成した可能性が高いことを示します。
楊軍峰氏は、「Raidarの着想、つまり別のAIは通常、別のAIの出力品質を高く評価するため、編集回数が少ないという洞察は非常に強力であり、テキストのみに限定されません。」と述べています。「AI生成動画がますますリアルになることを考えると、Raidarの洞察力を活用して、AI生成動画を正確に検出できるツールを作成したいと考えています。」
研究者らは、同じ概念を利用してDIVIDを開発しました。この新しい生成動画検出方法は、拡散モデルによって生成された動画を識別できます。この研究論文は、2024年6月18日にシアトルで開催されたコンピュータビジョンとパターン認識に関する会議(CVPR)で発表され、同時にオープンソースコードとデータセットが公開されました。
論文アドレス:https://arxiv.org/abs/2406.09601
要点:
- ますますリアルになるAI生成動画に対応して、コロンビア大学工学部は、93.7%の精度でAI生成動画を検出できる新しいツールDIVIDを開発しました。
- DIVIDは、次世代AI動画生成を検出するための以前の方法を改良したもので、ランダムノイズを徐々に高品質でリアルな動画画像に変換できる拡散モデルによって生成された動画を識別できます。
- 研究者らは、RaidarによるAI生成テキストの洞察力を動画に拡張し、言語モデルを使用してテキストまたは動画を言い換えたり修正したりし、その後、システムがテキストまたは動画に対して行った編集回数を測定することで、その真偽を判断します。
