西班牙數字圖形巨頭 Freepik 近日推出了其最新的文本到圖像生成模型“F Lite”,旨在成爲 Midjourney 等因版權問題而備受爭議的生成器的合法且安全的替代品。
F Lite 擁有約100億個參數,其獨特之處在於完全基於 Freepik 自身商業授權的圖像庫進行訓練。Freepik 聲稱,這使其成爲首個完全依賴“工作安全”內容進行訓練的如此規模的公開模型。
這款模型是 Freepik 與人工智能初創公司 Fal.ai 合作開發的成果。訓練過程耗時兩個多月,使用了64塊 Nvidia H100GPU 和約8000萬張 Freepik 內部數據集的圖像。
Freepik 對照片提示“單反相機拍攝的照片,一個紅鬍子男人在雨中跳舞”的詮釋,帶有一種復古、早期人工智能的感覺。| 圖片:THE DECODER 出品的 F Lite
通過推出 F Lite,Freepik 加入了日益壯大的基於合法審查數據的圖像生成器陣營,其中包括 Adobe、Getty Images 和 Shutterstock 等公司的產品。在 OpenAI 和 Midjourney 等公司因使用抓取自開放互聯網的圖像而面臨多起訴訟的背景下,版權安全的訓練數據集正變得越來越重要。
與一些競爭對手不同,Freepik 將 F Lite 定位爲一個開放的替代方案,供開發者在其基礎上進行進一步開發。該模型已在 GitHub 上開源,但運行它需要至少24GB VRAM 的 GPU。此外,Hugging Face 上也提供了一個演示版本供用戶試用。
在《Midjourney》中,同樣的提示會產生一幅藝術感十足、照片般逼真的圖像,幾乎看不出是人工智能生成的。| 圖片:THE DECODER 提示的《Midjourney》
Freepik 指出,F Lite 在生成插圖和矢量風格的作品方面表現出色,這可能得益於其來自 Freepik 自身目錄的訓練數據。然而,在處理照片級逼真的圖像時,該模型仍顯不足,例如皮膚紋理或織物等細節常常缺失,並且在處理複雜的解剖結構場景時可能會出現明顯的錯誤。由於該模型主要基於較長的描述性文本進行訓練,因此在處理簡短提示時也存在一定的困難,並且在圖像中準確渲染文本仍然是一個挑戰。
Freepik 將這些侷限性歸因於其訓練數據集的大小和所使用的計算量,並強調擴散模型的著名縮放定律——隨着數據量和訓練時間的增加,圖像質量和細節將顯著提高。
Freepik 是一家總部位於西班牙的公司,專注於爲設計師、企業和創意專業人士提供授權的數字圖形資源,包括矢量圖形、照片、插圖、圖標和演示模板。除了付費訂閱服務外,Freepik 還提供部分免費內容。此次推出 F Lite,標誌着 Freepik 在其核心庫存媒體業務之外,進一步拓展至人工智能工具領域。