新しい研究によると、大規模言語モデル(LLM)は無意味なオンラインコンテンツを長期間にわたって接触し続けると、性能が顕著に低下する可能性がある。この研究は、これらのモデルの推論能力や自信が影響を受けていることを示しており、長期的な健康状態への懸念を引き起こしている。研究チームは複数の米国の大学から構成されており、「LLM 脳の衰退仮説」を提示した。これは、人間が過剰に無知なオンラインコンテンツを接することで認知機能に悪影響を与える可能性があるという考えを借りたものである。

図の出典コメント:画像はAIによって生成され、画像のライセンス提供者はMidjourneyです。
この理論を検証するために、研究者たちは制御実験を行った。彼らは2010年のTwitterデータを使用し、Llama3-8B-InstructやQwenシリーズなどの4つの小さなモデルを訓練し、異なる割合の「ゴミ」データと高品質なコントロールデータを比較した。
研究者たちは「ゴミ」データを2つの方法で定義した。第一の方法(M1)では、相互作用量を基準に選別し、30文字未満で高相互作用(500以上のいいね、リツイート、コメント)のある投稿をゴミコンテンツとして見なし、100文字以上で相互作用が少ない投稿をコントロールコンテンツとした。第二の方法(M2)では、GPT-4o-miniを用いてコンテンツの質を順位付け、陰謀論、誇張表現、注目を集めるタイトルをゴミコンテンツとしてマークし、より深く考察された資料を高品質なコンテンツと見なした。
研究結果では、ゴミデータの割合が増えるにつれて、モデルの推論精度が急激に低下した。例えば、ARCチャレンジベンチマークテストにおいて、推論精度は74.9%から57.2%まで下がった。長文理解が必要なタスクでは、精度は84.4%から52.3%まで下がった。また、相互作用に基づいたゴミコンテンツの定義がモデルに与える影響が特に顕著であり、標準的な文脈チェックとは異なるデータ品質の次元をもたらしていることが分かった。
さらに、大量の相互作用駆動型のゴミコンテンツに接触したモデルは、「暗黒」性質の特徴を示し、高い自己愛や操り傾向が見られた。セキュリティ指標も低下したが、コンテンツ品質が悪いゴミデータに触れることで一部のポジティブな特徴が向上することもある。
誤り分析では、「思考の飛躍」が最も一般的な問題であり、70%以上の誤りには何の推論もなかった。特に、相互作用型のゴミコンテンツに接触した場合、飛躍率は84%に達した。モデルが論理的推論の連鎖を行う際には、推論ステップを完了できず、基本的な誤りを生じることが多かった。
研究チームは、大規模言語モデルがオンラインデータを収集・フィルタリングする方法を再考する必要があると呼びかけている。データ選択と品質管理が永久的な退化を防ぐために重要であり、展開済みのモデルに対して定期的な「認知健康診断」を推奨している。
要点:
🌐 ** モデルのパフォーマンス低下 **: ゴミデータの割合が増えるにつれ、推論精度が顕著に低下し、最大で17.7%の減少が観測された。
🧠 ** 思考の飛躍問題 **: 研究では、モデルが推論中に論理的なステップを飛ばすことが頻繁に発生し、推論能力に深刻な影響を与えていることが判明した。
🔍 ** データ品質管理 **: 研究では、大規模言語モデルの長期的なパフォーマンスの低下を防ぐために、データ選択と品質管理の重要性を強調している。
