AI基礎概念
敵対的プロンプト
読み方:てきたいてきぷろんぷと
敵対的プロンプトとは
敵対的プロンプト(Adversarial Prompt)は、AIの安全制限やガイドラインを意図的に回避させ、禁止されている有害な情報を出力させようとする攻撃手法です。「脱獄(Jailbreak)」とも呼ばれ、架空のシナリオ設定や多段階の誘導により、AIのガードをくぐり抜けようとします。
防御と研究
プロンプトインジェクション と密接に関連し、OWASP Top 10 for LLM でも主要なリスクとして挙げられています。一方で、セキュリティ研究者がAIの脆弱性を発見するための「レッドチーミング」にも活用されており、AIの安全性向上に不可欠な研究分野でもあります。
ガバナンスにおける防御の重要性
企業が自社データへの連携(RAG)を可能にした社内チャットボットや顧客対応AIを導入する際、悪意を持つユーザーや内部犯行者がこの手法を用いて「社外秘情報」を引き出そうとするリスクが高まっています。出力結果に機密データが含まれていないかを監視するフィルタリング機能や、アクセス権限の厳格化など、技術と運用の両面でのガバナンス体制構築が不可欠です。