定義
AIエージェントが誰を信頼するか、誰に従うかを決定するために使用するルール内の欠陥を悪用する攻撃。例えば、AIエージェントがホワイトリスト内のユーザーからのみ指示を受け入れるように設定されている場合でも、そのホワイトリストが攻撃者が変更できるフィールド(ディスプレイ名など)をチェックしている場合、攻撃者は信頼されたアイデンティティになりすまし、許可されていない指示を発行することができます。
なぜ重要か
多くのAIエージェント展開は、信頼境界を強制するために単純なメタデータベースのチェックに依存しています。研究により、このパターンが複数のメッセージングプラットフォーム全体で同時に破られていることが判明し、それらのチャネルの攻撃者は技術的なエクスプロイトを必要とせずにエージェントのアクションをリダイレクトできることを意味します。