近日,人工智能研究組織Artificial Analysis推出了一項名爲"Artificial Analysis Text to Image Leaderboard & Arena"(文本到圖像排行榜與競技場)的新舉措,旨在全面評估這些模型的性能。

評測平臺概述

自兩年前引入基於擴散的圖像生成器以來,AI圖像模型已經達到了接近照片級的質量。Artificial Analysis Text to Image Leaderboard & Arena致力於比較開源和專有的圖像生成模型,根據人類偏好來確定它們的效果和準確性。

該平臺的排行榜基於通過Artificial Analysis Image Arena收集的超過45,000個人類圖像偏好,使用ELO評分系統進行更新。評測涵蓋了多個領先的圖像模型,包括Midjourney、OpenAI的DALL·E、Stable Diffusion和Playground AI等。

image.png

評測方法

平臺採用衆包方式收集大規模人類偏好數據。參與者會看到一個提示詞和兩張生成的圖像,然後選擇最符合提示詞的那張。每個模型會生成700多張涵蓋不同風格和類別的圖像,如人物肖像、羣體、動物、自然和藝術等。收集的偏好數據用於計算每個模型的ELO分數,從而形成比較排名。

初步洞察

排行榜顯示,雖然專有模型在性能上領先,但開源替代方案正變得越來越具有競爭力。Midjourney、Stable Diffusion3和DALL·E3HD等模型位居榜首,而開源模型Playground AI v2.5也取得了顯著進展,超過了OpenAI的DALL·E3。

值得注意的是,圖像生成模型的格局正在迅速變化。例如,去年還處於領先地位的DALL·E2,現在在競技場中被選中的比例不到25%,已跌至排名最低的模型之列。

公衆參與

Artificial Analysis鼓勵公衆參與這項評測。用戶可以訪問Hugging Face上的排行榜,並通過Image Arena參與排名過程。完成30次圖像選擇後,參與者可以查看個性化的模型排名,從而獲得針對自己偏好的洞察。

這一舉措爲理解和改進AI圖像生成模型邁出了重要一步。通過利用人類偏好和嚴格的衆包方法,該平臺爲領先圖像模型的比較性能提供了寶貴的見解。隨着該領域的不斷髮展,這類平臺將在指導AI驅動的圖像生成的未來發展和創新方面發揮關鍵作用。

榜單鏈接地址:https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard