AIによる画像生成の分野では、これまで広く受け入れられている常識として、高品質な画像やビデオを生成するためには、より大きなモデル、多くのパラメーター、そして強力な演算能力が必要だとされてきました。しかし、香港科技大学とKuaishou Technologyの研究チームが最近発表した「EvoSearch」(進化検索)技術は、この従来の固定観念を根本的に覆すものです。

image.png

この技術の最も驚異的な点は、865MパラメーターしかないStable Diffusion 2.1モデルがEvoSearchを使用することで、強力なGPT-4oを超える生成品質を達成し、さらに1.3BパラメーターのWanモデルとEvoSearchを組み合わせると、それよりも10倍大きい14Bモデルと同等のパフォーマンスを発揮することです。

既存のAI生成モデルの課題

現在主流のAI生成モデルは主に2つのカテゴリーに分類されます。拡散モデルはノイズ除去プロセスを通じてクリアな画像を生成します。これはぼやけた写真が徐々に鮮明になるのと同じプロセスです。一方、流れモデルはランダムなノイズを目標とする画像に変形させるために、一連のスムーズな変換を行います。

image.png

これらのモデルのパフォーマンスを向上させるために、業界では主に2つの戦略が採用されています。一つ目はトレーニング段階でモデル規模を増大させ、より多くのデータを投入することですが、「巨大な計算資源があれば奇跡が起こる」というアプローチは非常にコストがかかり、すでにリソースの限界に近づいています。二つ目は推論段階での最適化で、Best-of-Nサンプリング(N枚の画像を生成して最高のものを選ぶ)や粒子サンプリング(複数の候補案を維持し、優れた個体を選択する)といった手法があります。

しかし、これらの既存の方法には明らかな欠点があります。Best-of-N法は効率が低く、多くの計算が「不要なもの」に浪費されます。粒子サンプリング法は保守的すぎ、局所的な最適解に閉じ込められやすく、積極的な探索能力を持ちません。他の微調整法も、追加のトレーニングが必要だったり、生成されたサンプルに多様性が欠ける傾向があります。

EvoSearch: AI画像生成分野の「進化論」

EvoSearchの核心的な革新は、進化論的思想をAI生成プロセスに導入したことです。この方法では、画像生成を種族の進化過程と考えています。まず「初期世代」(ランダムノイズ)を生成し、次に「適合度評価」で中間生成物を評価します。その後、「生存競争」を通じて優れた個体を選別し、最後に特別に設計された「突然変異」操作によって新しい候補案を生み出します。

この突然変異操作がEvoSearchの重要な技術的突破です。初期ノイズに対しては、適切な量のガウスノイズを追加して変異を引き起こします。去噪プロセス中の中間状態では、ランダム微分方程式サンプリングにおけるランダム性注入方法を取り入れ、中間状態に制御可能な干渉を加えます。このような設計により、新しい領域を探索しつつ、優れた「遺伝子」を保つことができます。

従来の方法と比較すると、EvoSearchは3つの大きな利点を持っています。積極的な探索が可能であり、初期の候補プールに制約されない。探査と活用を効果的にバランスさせ、局所的な最適解に早く収束することを防ぐ。汎用性が高く、拡散モデルや流れモデルに適用可能で、モデル構造の変更や追加のトレーニングは必要ありません。

実験結果: 全方位で「次元を下げる」

研究チームは画像やビデオ生成タスクにおいて広範なテストを行い、結果としてEvoSearchは既存の基準方法すべてを大幅に上回ることが示されました。

画像生成の面では、推論計算量が増えるにつれ、EvoSearch生成の画像の品質とテキストとの一致度が安定して向上し続けます。他の方法はすぐに限界に達します。複雑で曖昧なヒントに対する場合、EvoSearchはより正確に理解し、要求に沿った画像を生成でき、背景や姿勢などの面でもより豊富な多様性を見せています。

ビデオ生成の側面では、その成果はさらに驚異的です。万象Wan1.3Bモデルや混元HunyuanVideo13Bモデルを使った場合でも、EvoSearchの生成品質は基準方法を大きく上回ります。特に印象的だったのは、Wan1.3BモデルにWan14Bモデルと同じ推論時間予算を与えたとき、前者にEvoSearchを組み合わせると後者と互角かそれを超える結果を達成できたことです。

注目に値するのは、評価指標がEvoSearchの検索時に使用された報酬関数と完全に一致しない場合でも、この方法は良好な汎化能力を示し、特定の報酬関数に偏向されることはありませんでした。人間による評価では、EvoSearch生成のビデオは視覚品質、動作品質、テキストとの整合性、全体的な質においてより高い勝率を得ました。

技術的示唆と今後の展望

EvoSearchの成功はAI生成分野に重要な示唆を与えました。まず、トレーニングコストがますます高騰する今日、推論段階でより多くの計算力を投入することでモデルのパフォーマンスを向上させる道筋は非常に価値があります。次に、生物学的な進化における選択と変異のアイデアをAI生成分野に取り入れることで、従来の検索方法の限界を克服できることが示されました。

さらに重要なのは、この技術の成功には拡散モデルと流れモデルの去噪プロセスに関する深い理解が不可欠であるという点です。EvoSearchはこれらのモデルの去噪プロセスにおける状態空間構造特性を本当に掌握し、それに基づいて特化された変異戦略を設計することで、より効果的に可能性の大きな空間を探求することができました。

もちろん、EvoSearchにもさらなる改善の余地があります。研究チームは、よりスマートな変異戦略の設計や、探査と計算効率のバランスをより良く取ることなどが将来の改良の方向だと指摘しています。

この技術は私たちに重要なトレンドを示しています。無理に大きなモデルや多くのトレーニングデータを求める必要なく、推論段階でより知的な検索戦略を活用すれば、AIモデルの潜在能力をさらに深く掘り下げることができます。EvoSearchはAIクリエイティブの「知能進化」時代を切り開き、小さなモデルでも驚くべき作品を作り出すことができるようになります。

プロジェクトホームページ: https://tinnerhrhe.github.io/evosearch/

コード: https://github.com/tinnerhrhe/EvoSearch-codes

論文: https://arxiv.org/abs/2505.17618