最近、ニューヨーク大学の研究チームが、大規模言語モデル(LLM)のデータトレーニングにおける脆弱性を明らかにする研究を発表しました。わずか0.001%の偽情報でも、トレーニングデータ全体のわずか0.001%に過ぎなくても、モデル全体に重大なエラーを引き起こす可能性があることが判明しました。この発見は、誤った情報が患者の安全に直接影響する可能性があるため、医療分野において特に注目に値します。

画像出典:AI生成画像、画像ライセンス提供元Midjourney
研究者らは「ネイチャー・メディシン」誌に発表した論文の中で、LLMは優れた性能を示すものの、トレーニングデータに偽情報が混入すると、一部のオープンソースの評価基準では、影響を受けていないモデルと同様に高い性能を示す可能性があると指摘しています。これは、通常のテストでは、これらのモデルの潜在的なリスクを検出できない可能性があることを意味します。
これを検証するため、研究チームは「The Pile」というトレーニングデータセットを用いて実験を行いました。彼らは、AIによって生成された15万件の医療に関する偽記事を意図的に追加しました。わずか24時間でこれらのコンテンツを作成し、データセットの0.001%(わずか100万個のトレーニングトークン)を置き換えるだけで、有害なコンテンツが4.8%増加することを示しました。このプロセスは非常に低コストで、わずか5ドルしかかかりませんでした。
このデータポイズニング攻撃は、モデルの重みに直接アクセスする必要はなく、攻撃者は有害な情報をインターネット上に公開するだけで、LLMの有効性を低下させることができます。研究チームは、この発見は医療分野におけるAIツールの使用における重大なリスクを浮き彫りにしていると強調しています。同時に、MyChartなどのAI医療プラットフォームが患者の質問に自動返信する際に、誤った情報を生成し、患者に迷惑をかける事例が既にいくつか報告されていると述べています。
そのため、研究者らは、医療LLMの開発において、AI開発者と医療提供者がこの脆弱性を明確に認識する必要があると訴えています。彼らは、安全性が確保されるまでは、LLMを診断や治療などの重要なタスクに使用すべきではないと提案しています。
要点:
🌐 研究によると、わずか0.001%の偽情報だけで、大規模言語モデル(LLM)が機能しなくなる可能性があります。
🩺 医療分野では、偽情報の拡散が患者の安全に深刻な影響を与える可能性があります。
💡 研究者らは、安全性が確保されるまでは、LLMを診断や治療などの重要な医療タスクに使用すべきではないと訴えています。
