정의
악의적인 행위자가 AI 모델을 훈련하거나 업데이트하는 데 사용되는 데이터를 의도적으로 손상시키거나, 모델이 런타임에 활용하는 지식 기반에 악성 콘텐츠를 주입하는 공격입니다. 목표는 모델이 잘못되게 동작하도록 만들거나, 편향된 결과물을 생성하거나, 나중에 트리거될 수 있는 숨겨진 백도어를 만드는 것입니다.
왜 중요한가
손상된 훈련 데이터는 최종 사용자에게 보이지 않으며 제품 업데이트를 통해서도 지속될 수 있습니다. 즉, 손상된 모델은 배포 이후 오랜 기간 미묘하게 잘못되거나 해로운 답변을 제공할 수 있습니다. AI 패키지를 손상시키는 공급망 공격(Shai-Hulud/Miasma 웜 같은)은 이것이 더 이상 가설적이지 않음을 보여줍니다.