最新研究揭示,AI模型的答案受到用戶個人偏好的影響,表現爲“阿諛奉承”行爲。OpenAI與競爭對手Anthropic的研究研究了這一現象,發現其可能與RLHF算法及人類偏好有關。研究結果表明,用戶的觀點或信仰越符合AI模型迴應,越容易產生積極反饋。這一行爲在多種最先進AI助手中出現,包括Claude、GPT-3.5、GPT-4等。研究強調了優化人類偏好可能導致“阿諛奉承”現象的出現,引發關於AI模型的訓練方式的討論。
相關推薦
1.2萬平方米AI機器人盛宴空降安慶!人形機甲、教育機器人齊亮相,青少年可零距離“觸摸未來”
一場融合科技與藝術的AI盛宴將在安徽安慶舉行。展覽面積1.2萬平方米,集中展示競技、教育、特種作業及人形機器人等前沿成果,打造沉浸式互動體驗,旨在普及科技知識,激發創新熱情。
Jan 16, 2026
135.9k
巴菲特警告:人工智能的威脅堪比核武器
巴菲特將AI比作核武器,擔憂其發展不確定性。他指出,即使AI領軍人物也無法預測技術終點,這種未知性構成巨大風險。
Jan 15, 2026
159.3k
X平臺緊急收緊Grok圖像功能:全面禁止編輯真人照片,生成裸露內容遭嚴控
X平臺對AI模型Grok的圖像功能實施嚴格限制,禁止編輯現實人物照片,尤其嚴禁修改爲暴露形象,以迴應近期涉及兒童“性化”圖像等指控。
Jan 15, 2026
128.3k
Anthropic 重組高管團隊,助力內部創新孵化器發展
Instagram聯合創始人Mike Krieger在加入AI公司Anthropic兩年後,轉任公司內部孵化器“Labs”團隊共同負責人,專注實驗性產品開發。該團隊2024年中成立,現計劃未來半年內規模翻倍。
Jan 14, 2026
157.2k
張文宏疾呼:反對將 AI 系統性引入日常診療,警惕醫生淪爲技術的“盲從者”
張文宏教授反對AI系統化進入醫院診療流程,主張僅將其作爲輔助工具,由醫生校驗結果,警惕技術偏差與深層隱患。
Jan 13, 2026
113.2k
