定義
悪質な行為者が AI モデルの訓練またはアップデートに使用されるデータを意図的に破損させるか、モデルが実行時に利用するナレッジベースに悪意のあるコンテンツを注入する攻撃。目標は、モデルの動作を誤らせ、偏った出力を生成させるか、後でトリガーされる可能性のある隠れたバックドアを作成することです。
なぜ重要か
毒性を持つ訓練データはエンドユーザーには見えず、製品のアップデートを通じて存続する可能性があります。つまり、侵害されたモデルは展開後も長期間にわたって微妙に間違った、または有害な回答を提供する可能性があります。AI パッケージに毒性を与えるサプライチェーン攻撃(Shai-Hulud/Miasma ワームなど)は、これがもはや仮説的ではないことを示しています。