據科技日報報道,中國科學院自動化研究所的科研人員近期取得了重要突破。他們首次證實,多模態大語言模型在訓練過程中能夠自發 “理解” 事物,其理解方式與人類的認知非常相似。這一發現不僅爲我們探索人工智能的思維機制開闢了新路徑,還爲未來開發能夠像人類一樣理解世界的人工智能系統奠定了基礎。這項研究成果已在《自然・機器智能》雜誌上發表。
理解是人類智能的核心。當我們看到 “狗” 或 “蘋果” 時,除了能夠識別其外觀特徵,如大小、顏色和形狀,我們還理解它們的用途、所帶來的感受以及文化意義。這種全方位的理解能力是我們認識世界的基礎。隨着 ChatGPT 等大模型的迅速發展,科學家們開始思考這些模型是否能從大量文字和圖片中學會像人類一樣 “理解” 事物。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
傳統的人工智能研究多集中於物體識別的準確率,而鮮有探討模型是否真正 “理解” 物體的內涵。中國科學院的研究員何暉光指出,儘管當前人工智能能夠區分貓和狗的圖片,但這種 “識別” 與人類對貓狗的 “理解” 之間的本質區別仍待深入研究。
在這項研究中,科研團隊借鑑人類大腦的認知原理,設計了一個有趣的實驗:讓大模型與人類一起玩 “找不同” 遊戲。他們從1854種常見物品中挑選出三個物品的概念,要求參與者找出最不搭的一個。通過分析470萬次的判斷數據,科研人員首次繪製出大模型的 “思維導圖”,即 “概念地圖”。
研究顯示,科學家總結了66個代表人工智能 “理解” 事物的關鍵視角,這些視角不僅易於解釋,且與人腦中負責物體加工的神經活動模式高度一致。更重要的是,能同時處理文字和圖片的多模態模型在 “思考” 和選擇方面與人類的方式更爲接近。
有趣的是,當人類進行判斷時,會同時考慮物體的外觀特徵和其意義或用途,而大模型則更依賴於它所獲得的 “文字標籤” 和抽象概念。這一發現表明,大模型的確發展出了一種與人類相似的理解世界的方式,開啓了人工智能理解能力的新篇章。