近日,騰訊旗下 AI 助手“騰訊元寶”App 因輸出辱罵性內容引發廣泛爭議。據西安一名市民反映,其在除夕夜使用該 App 生成拜年圖片時,在未輸入任何違禁詞的情況下,原本“新年快樂”的祝福語在多次修改後竟被 AI 替換爲低俗辱罵文字。

這並非元寶首次出現此類行爲。今年年初,多位用戶曾爆料在請求其修改代碼時,遭到 AI 以“滾”、“天天浪費別人時間”等言論進行人身攻擊。這種罕見的“AI 脾氣”引發了公衆對大模型安全對齊能力的質疑。
對此,騰訊元寶官方公開致歉,解釋稱該情況並非人工干預,而是模型在處理多輪對話時出現的“小概率異常輸出”。
目前,官方已緊急啓動校正方案,通過優化模型權重和過濾策略來封堵漏洞。行業專家指出,此類事件暴露了大模型在長文本理解與情緒控制上的技術死角,如何確保 AI 在極端交互下依然保持“溫良”仍是業界難題。

