英國薩里大學和斯坦福大學的研究團隊開發了一種新方法,教會人工智能(AI)理解人類線描草圖,即使是非藝術家繪製的。該模型在識別場景草圖方面接近人類水平的表現。

image.png

薩里大學視覺、語音和信號處理中心(CVSSP)和薩里人民中心人工智能研究所(PAI)的講師 Yulia Gryaditskaya 博士表示:“草圖是一種強大的視覺溝通語言。它有時甚至比口頭語言更具表現力和靈活性。開發理解草圖的工具是邁向更強大的人機交互和更高效的設計工作流程的一步。例如,可以通過草圖搜索或創建圖像。” 無論年齡和背景如何,人們都使用繪畫來探索新想法和溝通。然而,人工智能系統在理解草圖方面一直存在問題。人工智能必須學會理解圖像。通常情況下,這需要一個費時費力的過程,收集圖像中每個像素的標籤。然後人工智能從這些標籤中學習。

然而,研究團隊通過草圖和文字描述的組合教會了人工智能。它學會了對像素進行分組,將其與描述中的類別進行匹配。結果,人工智能展現出比以往更豐富和更接近人類的理解能力。它能夠以85% 的準確度正確識別和標記風箏、樹、長頸鹿和其他對象,勝過依賴於標記像素的其他模型。除了識別複雜場景中的對象,它還可以確定每一筆畫是用來描繪哪個對象的。這種新方法不僅適用於非藝術家繪製的非正式草圖,還適用於沒有明確訓練的對象繪製的草圖。

斯坦福大學心理學助理教授 Judith Fan 表示:“繪畫和書寫是最典型的人類活動之一,長期以來一直用於捕捉人們的觀察和想法。這項工作在 AI 系統能理解人們嘗試傳達的想法本質方面取得了令人振奮的進展,無論他們是使用圖片還是文字。” 該研究是薩里大學人民中心人工智能研究所的一部分,特別是其 SketchX 計劃。SketchX 利用人工智能,試圖通過我們繪製的方式理解我們看到世界的方式。

人民中心人工智能研究所聯合主任、SketchX 負責人宋一哲教授表示:“這項研究是 AI 如何增強草圖等基本人類活動的一個典型例子。通過以接近人類的準確度理解粗糙草圖,這項技術有巨大潛力,能增強人們的自然創造力,無論藝術天賦如何。” 

論文地址:https://arxiv.org/abs/2312.12463