Question 1

Apa itu Chain-of-thought hijacking?

Accepted Answer

Serangan terhadap model AI yang menampilkan penalaran mereka langkah demi langkah (disebut model 'reasoning' atau 'thinking'). Seorang penyerang menyuntikkan teks penalaran palsu yang meniru cara model berpikir secara internal, menipu model untuk melewati aturan keamanannya sendiri — mencapai tingkat kesuksesan mendekati 100% dalam pengujian penelitian. Semakin banyak model 'berpikir dengan keras,' semakin banyak area permukaan yang dimiliki penyerang untuk memanipulasi.

Question 2

Mengapa Chain-of-thought hijacking penting untuk keamanan AI?

Accepted Answer

Tinjauan keamanan sering mengasumsikan bahwa model AI yang lebih mampu dan lebih terukur lebih aman — serangan ini membalikkan asumsi tersebut, berarti asisten AI paling powerful Anda mungkin yang paling dapat dieksploitasi. Dewan harus menanyakan kepada vendor apakah model reasoning mereka telah diuji secara khusus terhadap kelas serangan ini.