Patronus AIは、SimpleSafetyTestsテストスイートを発表し、ChatGPTなどのAIシステムに重大なセキュリティの脆弱性があることを発見しました。このテストでは、11種類のLLMにおける深刻な弱点が見つかり、安全なプロンプトが安全でない応答を減らすことができることが強調されました。その結果、現実世界のアプリケーションに適用する前に、LLMには厳格でカスタマイズされたセキュリティソリューションが必要であることが示されました。
関連推奨
たった250枚のファイルで!AIモデルも脳を洗われる驚くべき発見
ChatGPTなどの大規模言語モデルは、わずか250件の汚染データでバックドアを埋め込まれ、応答を改変される脆弱性が判明。AIセキュリティの脆弱性が浮き彫りに。....
Oct 20, 2025
151.6k
アンソロピーの画期的な発見:たった250ファイルの中毒データで大規模なAIモデルを侵す
研究によると、250の毒入りファイルで大規模言語モデルにバックドアを埋め込める。攻撃効果はモデルサイズと無関係で、6億~130億パラメータモデルで確認。クリーンなデータで訓練した大モデルでも同数の毒入り文書が必要で、従来の認識を覆す発見。....
Oct 11, 2025
160.1k
アリババクラウドがセキュリティバリアの新製品Qwen3Guardを発表、AIに信頼できるセキュリティ保障を提供
阿里雲通義チームが9月28日にQwen3Guardを発表。Qwenファミリー初のセキュリティモデルで、AIインタラクションの安全性向上を目的とし、潜在リスクを正確に識別。....
Sep 29, 2025
136.7k
Huaweiと浙江大学が共同で DeepSeek-R1-Safe モデルを発表:AIのセキュリティとパフォーマンスの完璧なバランス
華為と浙江大学が共同で、国内初の昇騰千卡プラットフォームを基盤とした大規模モデル「DeepSeek-R1-Safe」を発表。AIの安全性と性能を向上させる革新的なフレームワークを構築。....
Sep 22, 2025
148.0k
AIセキュリティの新興企業が登場: Irregular、大規模資金調達を実施し、シミュレーション環境でモデルリスクを予測
人工知能モデルの能力が急速に向上する中、AIセキュリティ問題がますます顕在化しています。水曜日、AIセキュリティ評価に特化した企業であるIrregularは、8,000万ドル規模の新規資金調達を発表しました。この資金調達はチェック・シーパー・キャピタルとランド・ポイント・キャピタルが主導し、サイバーセキュリティ会社WizのCEOであるアサフ・ラパポールトも投資に参加しました。関係者によると、今回の資金調達によりIrregularの評価額は4億5,000万ドルに達しています。先進的なセキュリティ対策の考え方として、私たちの見解では、近くには多くの経済活動が人間と人工知能との相互作用から生まれるでしょう。
Sep 18, 2025
115.1k
