Patronus AIは、SimpleSafetyTestsテストスイートを発表し、ChatGPTなどのAIシステムに重大なセキュリティの脆弱性があることを発見しました。このテストでは、11種類のLLMにおける深刻な弱点が見つかり、安全なプロンプトが安全でない応答を減らすことができることが強調されました。その結果、現実世界のアプリケーションに適用する前に、LLMには厳格でカスタマイズされたセキュリティソリューションが必要であることが示されました。
関連推奨
グーグル DeepMindがGemma Scope 2をリリース:Gemma 3モデルの全体的な解釈性ツールを提供
グーグルDeepMindは、Gemma3言語モデルの2.7億~270億パラメータの各層における情報処理を深く分析するためのオープンな解釈性ツールキットであるGemma Scope2を発表しました。このツールは、AIセキュリティや対応チームがモデル内の特徴を追跡し、「脱出」や幻覚、不適切な行動などの問題に対処するのを支援します。
Dec 23, 2025
141.5k
赤帽がAI企業のChatterbox Labsを買収し、企業向けAIセキュリティ能力を強化
赤帽はAI企業のChatterbox Labsを買収し、企業向けAIの展開を強化しました。同社はAIモデルのテストと生成型AIセキュリティに注力しており、AIMIプラットフォームによりAIリスクを数値化し、モデルの行動を管理できます。これは、昨年Neural Magicを買収した後、赤帽がAI分野で行った重要な投資の一つです。
Dec 17, 2025
133.8k
たった250枚のファイルで!AIモデルも脳を洗われる驚くべき発見
ChatGPTなどの大規模言語モデルは、わずか250件の汚染データでバックドアを埋め込まれ、応答を改変される脆弱性が判明。AIセキュリティの脆弱性が浮き彫りに。....
Oct 20, 2025
132.1k
アンソロピーの画期的な発見:たった250ファイルの中毒データで大規模なAIモデルを侵す
研究によると、250の毒入りファイルで大規模言語モデルにバックドアを埋め込める。攻撃効果はモデルサイズと無関係で、6億~130億パラメータモデルで確認。クリーンなデータで訓練した大モデルでも同数の毒入り文書が必要で、従来の認識を覆す発見。....
Oct 11, 2025
152.6k
アリババクラウドがセキュリティバリアの新製品Qwen3Guardを発表、AIに信頼できるセキュリティ保障を提供
阿里雲通義チームが9月28日にQwen3Guardを発表。Qwenファミリー初のセキュリティモデルで、AIインタラクションの安全性向上を目的とし、潜在リスクを正確に識別。....
Sep 29, 2025
152.6k
