Attack  ·  Glosarium

Chain-of-thought hijacking

Serangan terhadap model AI yang menampilkan penalaran mereka langkah demi langkah (disebut model 'reasoning' atau 'thinking'). Seorang penyerang menyuntikkan teks penalaran palsu yang meniru cara model berpikir secara internal, menipu model untuk melewati aturan keamanannya sendiri — mencapai tingkat kesuksesan mendekati 100% dalam pengujian penelitian. Semakin banyak model 'berpikir dengan keras,' semakin banyak area permukaan yang dimiliki penyerang untuk memanipulasi.
Tinjauan keamanan sering mengasumsikan bahwa model AI yang lebih mampu dan lebih terukur lebih aman — serangan ini membalikkan asumsi tersebut, berarti asisten AI paling powerful Anda mungkin yang paling dapat dieksploitasi. Dewan harus menanyakan kepada vendor apakah model reasoning mereka telah diuji secara khusus terhadap kelas serangan ini.
Referensi
NeuralTrust: Chain-of-Thought Hijacking Research
Pantau di umpan langsung Lihat bagaimana hal ini terwujud dalam perkembangan keamanan dan tata kelola AI nyata.
Buka umpan →