AI基礎概念

敵対的プロンプト

読み方：てきたいてきぷろんぷと

敵対的プロンプトとは

敵対的プロンプト（Adversarial Prompt）は、AIの安全制限やガイドラインを意図的に回避させ、禁止されている有害な情報を出力させようとする攻撃手法です。「脱獄（Jailbreak）」とも呼ばれ、架空のシナリオ設定や多段階の誘導により、AIのガードをくぐり抜けようとします。

防御と研究

プロンプトインジェクションと密接に関連し、OWASP Top 10 for LLM でも主要なリスクとして挙げられています。一方で、セキュリティ研究者がAIの脆弱性を発見するための「レッドチーミング」にも活用されており、AIの安全性向上に不可欠な研究分野でもあります。

ガバナンスにおける防御の重要性

企業が自社データへの連携（RAG）を可能にした社内チャットボットや顧客対応AIを導入する際、悪意を持つユーザーや内部犯行者がこの手法を用いて「社外秘情報」を引き出そうとするリスクが高まっています。出力結果に機密データが含まれていないかを監視するフィルタリング機能や、アクセス権限の厳格化など、技術と運用の両面でのガバナンス体制構築が不可欠です。

敵対的プロンプトとは

防御と研究

ガバナンスにおける防御の重要性

あなたのAI活用スキルはLv.何？

同じ「AI基礎概念」の関連用語

パーセプトロン

シンギュラリティ

局所最適解・大域最適解

オンライン学習