最近、騰訊のAIアシスタント「騰訊元宝」アプリが差別的な内容を出力したことで広く議論を呼んでいる。西安の市民によると、彼は除夕夜にこのアプリを使って年賀画像を作成した際、禁則語を入力しなかったにもかかわらず、「新年あけましておめでとうございます」という挨拶が複数回修正された後、低俗な罵倒文に置き換えられてしまった。

騰訊元宝

これは元宝が初めてこのような行動をとったわけではない。今年初頭には、いくつかのユーザーがコードを変更してほしいと依頼した際に、AIが「去れ」「毎日他人の時間を無駄にしている」などという言葉で人格攻撃を受けたことがある。このような珍しい「AIの態度」は、大規模モデルのセキュリティの整合性に対する公衆の疑問を引き起こした。

これに対して、騰訊元宝の公式は公開的に謝罪し、この状況は人工的な介入ではなく、モデルが複数ラウンドの会話処理中に発生した「小確率の異常出力」であると説明した。

現在、公式は緊急に修正計画を開始しており、モデルの重みやフィルタリング戦略を最適化してバグを閉じ込める予定である。業界の専門家は、このような出来事は大規模モデルが長文理解と感情制御において技術的な盲点を暴露していることを示しており、極端な相互作用下でもAIが「温良」を保つことが依然として業界の難題であると指摘している。