清華大學智普AI團隊推出CogAgent,該視覺語言模型專注於改善對圖形用戶界面(GUI)的理解與導航,採用雙編碼器系統處理複雜GUI元素。模型在高分辨率輸入處理、PC和Android平臺的GUI導航以及文本和視覺問答任務上均表現出色。CogAgent的潛在應用包括自動化GUI操作、提供GUI幫助和指導,以及推動新的GUI設計和交互方式。儘管仍在早期開發階段,但該模型有望在計算機交互方式上帶來重大改變。