谷歌日前發佈了其新一代人工智能模型——PaliGemma2,該技術能分析圖像並生成標題,同時回答關於照片中人物的情感和行動等問題。PaliGemma2基於谷歌的 Gemma 開放模型系列,提供比傳統物體識別更爲深刻的圖像描述,能夠識別情緒並生成符合上下文的詳細描述。然而,儘管這一技術看似突破性創新,專家卻對其潛在的倫理和社會影響提出了嚴重警告。

情緒識別並非PaliGemma2的標準功能,而是通過微調實現的。儘管谷歌表示其已進行了“廣泛測試”,並且在人口統計學偏見方面表現優於行業基準,專家們仍對該技術的可靠性表示擔憂。牛津大學的桑德拉·沃赫特教授認爲,“通過人工智能來‘讀懂’人類情緒存在重大問題”,並且這一過程過於依賴假設,可能導致誤判和偏見。
情緒識別技術長期以來一直是技術界爭議的焦點。雖然早期研究如保羅·艾克曼的情緒理論提出了六種基本情緒,但後續的研究表明,不同文化和背景下的情緒表達差異巨大。英國瑪麗女王大學的邁克·庫克研究員指出,“情緒體驗的複雜性使得情緒檢測幾乎不可能做到準確”。此外,研究表明,現有的面部表情分析系統常常對某些情感產生偏見,如微笑或不同種族面部表情的差異。
隨着情緒識別技術逐漸商業化,其可能帶來的濫用風險引起了各方關注。部分專家擔心,這類技術可能被用於執法、招聘等領域,進一步加劇社會的不平等。歐盟的人工智能法案已經針對情緒識別技術提出了嚴格的限制,尤其是在高風險環境中的應用。
谷歌則堅稱,PaliGemma2在測試階段已充分考慮了倫理和安全問題,尤其是兒童和內容安全方面。然而,這些保證是否足夠,仍需受到嚴格審視。AI Now Institute的Heidy Khlaaf博士表示,情緒識別不僅是視覺問題,還涉及深層的社會和文化背景,“僅憑面部特徵無法準確推斷情緒”。
隨着這一技術的公開發布,PaliGemma2不僅將推動人工智能在圖像理解領域的應用,也將對社會倫理和數據隱私提出新的挑戰,亟需相關監管機構的關注和干預。
