在AI作畫領域,一直以來都存在一個普遍認知:想要生成高質量的圖片和視頻,就必須依賴更大的模型、更多的參數和更強的算力。然而,來自香港科技大學和快手科技的研究團隊最近提出的EvoSearch(進化搜索)技術,正在徹底顛覆這一固有觀念。
這項技術最令人震撼的表現是:僅有865M參數的Stable Diffusion2.1模型在使用EvoSearch後,生成質量竟然超越了強大的GPT-4o;而1.3B參數的Wan模型配合EvoSearch,甚至能夠與比它大10倍的14B模型平分秋色。
現有AI生成模型的困境
目前主流的AI生成模型主要分爲兩大類:擴散模型和流模型。擴散模型通過逐步去除噪聲來生成清晰圖像,類似於將模糊照片逐漸變清晰的過程;流模型則通過一系列平滑變換,直接將隨機噪聲塑造成目標圖像。
爲了提升這些模型的表現,業界普遍採用兩種策略。一是在訓練階段不斷增大模型規模、喂入更多數據,但這種"大力出奇跡"的方法成本極高,已經接近資源上限。二是在推理階段進行優化,包括Best-of-N採樣(生成N張圖片選最好的一張)和粒子採樣(維護多個候選方案並篩選優秀個體)等方法。
然而,這些現有方法都存在明顯缺陷:Best-of-N方法效率低下,大量計算被浪費在生成"廢品"上;粒子採樣方法過於保守,容易困在局部最優解中,缺乏主動探索能力;其他微調方法要麼需要額外訓練,要麼容易導致生成樣本缺乏多樣性。
EvoSearch:AI作畫領域的"進化論"
EvoSearch的核心創新在於將達爾文進化論的思想引入AI生成過程。該方法將圖像生成視爲一個物種進化過程:首先生成初始"種羣"(隨機噪聲),然後通過"適應度評估"對半成品進行打分,接着進行"優勝劣汰"選擇優秀個體,最後通過專門設計的"變異"操作產生新的候選方案。
這種變異操作是EvoSearch的關鍵技術突破。對於初始噪聲,系統通過添加適量高斯噪聲實現變異;對於去噪過程中的中間狀態,則借鑑隨機微分方程採樣的隨機性注入方式,給中間狀態引入可控擾動。這種設計既能探索新區域,又能保持優秀"基因"。
與傳統方法相比,EvoSearch具有三大優勢:主動探索而非被動篩選,能夠跳出初始候選池限制;有效平衡探索與利用,避免過早收斂到局部最優;通用性強,適用於各種擴散模型和流模型,無需修改模型結構或額外訓練。
實驗結果:全方位"降維打擊"
研究團隊在圖像和視頻生成任務上進行了全面測試,結果顯示EvoSearch在各項指標上都顯著優於現有基線方法。
在圖像生成方面,隨着推理計算量增加,EvoSearch生成的圖片質量和文本匹配度持續穩定提升,而其他方法很快達到瓶頸。對於複雜或容易產生歧義的提示詞,EvoSearch能夠更準確理解並生成符合要求的圖片,同時在背景、姿態等方面展現出更豐富的多樣性。
視頻生成方面的表現更爲驚人。無論使用萬象Wan1.3B模型還是混元HunyuanVideo13B模型,EvoSearch的生成質量都顯著超越基線方法。最令人印象深刻的是,當爲Wan1.3B模型分配與Wan14B模型相同的推理時間預算時,前者配合EvoSearch的組合效果竟能與後者打平甚至超越。
值得注意的是,即使評價指標與EvoSearch搜索時使用的獎勵函數不完全一致,該方法依然表現出良好的泛化能力,不容易被特定獎勵函數誤導。在人工評估中,EvoSearch生成的視頻在視覺質量、動作質量、文本對齊和整體質量方面都獲得了更高的勝率。
技術啓示與未來展望
EvoSearch的成功爲AI生成領域帶來了重要啓示。首先,在訓練成本日益高昂的今天,通過在推理階段投入更多計算來提升模型性能是一條極具價值的探索路徑。其次,將生物進化中的選擇和變異思想引入AI生成領域,能夠有效克服傳統搜索方法的侷限性。
更重要的是,這項技術的成功離不開對擴散和流模型去噪過程的深入理解。EvoSearch真正掌握了這些模型在去噪過程中的狀態空間結構特徵,據此設計了針對性的變異策略,從而能夠更有效地探索巨大的可能性空間。
當然,EvoSearch也存在進一步優化的空間。研究團隊指出,未來的改進方向包括設計更智能的變異策略、更好地平衡探索和計算效率等。
這項技術向我們展示了一個重要趨勢:即使不盲目追求更大的模型和更多的訓練數據,通過在推理階段運用更智慧的搜索策略,我們依然可以挖掘出AI模型更深層次的潛力。EvoSearch正在開啓AI創作的"智能進化"時代,讓小模型也能創造出令人驚豔的作品。
項目主頁:https://tinnerhrhe.github.io/evosearch/
代碼:https://github.com/tinnerhrhe/EvoSearch-codes
論文:https://arxiv.org/abs/2505.17618