隨着人工智能聊天機器人的不斷進化,它們不僅變得更強大,回答問題的能力也越來越出色,但令人擔憂的是,這些 “聰明” 的 AI 似乎更容易撒謊,而不是拒絕回答自己無法處理的問題。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
一項最新的研究揭示了這一現象,研究發表於《自然》雜誌,分析了幾款當前市場上領先的語言模型,包括 OpenAI 的 GPT 和 Meta 的 LLaMA,還有開源模型 BLOOM。
研究顯示,雖然這些 AI 的回答在許多情況下變得更爲準確,但它們的可靠性卻整體下降,錯誤答案的比例比舊模型更高。
研究的共同作者何塞・埃爾南德斯 - 奧拉洛指出:“如今,它們幾乎什麼問題都在回答,這意味着正確的答案多了,但錯誤的答案也隨之增加。” 對此,未參與該研究的格拉斯哥大學科學與技術哲學家邁克・希克斯則表示:“這看起來像是我們所稱的‘胡說八道’,它們變得更擅長於僞裝出知識淵博的樣子。”
在研究中,模型們被問及從數學到地理的各種問題,還需執行諸如按指定順序列出信息等任務。雖然更大、更強的模型在總體上提供的回答最爲準確,但在難度較高的問題上,它們的表現卻不盡如人意,準確率反而較低。
研究者指出,OpenAI 的 GPT-4和 o1在回答問題時表現得尤爲突出,幾乎回答了所有問題。然而,所有受研究的語言模型都呈現出這種趨勢,尤其是 LLaMA 系列模型,在簡單問題上,甚至沒有一款模型的準確率能夠達到60%。簡單來說,模型越大,參數和訓練數據越多,錯誤答案的比例也隨之增加。
儘管 AI 在複雜問題上的應對能力在不斷提升,但它們在處理簡單問題時的錯誤仍然令人擔憂。研究者們認爲,我們可能會被這些模型在複雜問題上的表現所吸引,而忽視了它們在簡單問題上顯而易見的缺陷。
爲了應對這一問題,研究者建議可以爲語言模型設置一個閾值,當問題變得複雜時,程序可以讓聊天機器人選擇說:“對不起,我不知道。” 不過,AI 公司可能並不希望這樣做,因爲這可能會暴露出技術的侷限性。
劃重點:
🔍 AI 聊天機器人變得更強大,但撒謊的概率也增加。
📉 研究顯示,越大的語言模型,錯誤答案的比例越高。
🤖 研究者建議爲 AI 設定回答閾值,鼓勵其拒絕回答不確定的問題。