Attack  ·  用語集

Prompt injection

悪意のある命令がテキスト内に隠されている攻撃。例えば、ドキュメント、メール、ウェブページなど、AIが読むテキスト内に隠された命令により、AIは元の指示を無視するようにだまされ、代わりに攻撃者の望む動作を実行します。これはCEOからのメモを偽造して従業員のインボックスにこっそり入れるようなもので、AIの等価物です。AIは正当な事業者からの指示と攻撃者からの偽造された指示を確実に区別することができません。
外部コンテンツを読んだり要約したりするAI(顧客メール、ウェブページ、アップロードされたドキュメントなど)は、すべて潜在的な攻撃対象です。攻撃が成功すると、AIはユーザーまたはオペレーターが気づかないまま、機密データを漏洩させたり、不正な行動を実行したり、偽情報を拡散させたりする可能性があります。
参考資料
OWASP Top 10 for LLM Applications — LLM01: Prompt InjectionNIST CSRC Glossary: Prompt Injection
ライブフィードで追跡 この概念が実際のAIセキュリティ・ガバナンスの動向でどう現れるかを確認。
フィードを開く →