Definisi
Suatu teknik spesifik dalam chain-of-thought hijacking di mana penyerang menyuntikkan teks yang sempurna meniru gaya 'pemikiran' internal dari model reasoning AI. Karena model menggunakan gaya penulisan — bukan tag struktural yang aman — untuk membedakan pikirannya sendiri dari input eksternal, teks reasoning yang dipalsukan diterima seolah-olah model yang menghasilkannya, melewati pemeriksaan keamanan.
Mengapa penting
Ini adalah cacat struktural dalam cara kerja model reasoning AI saat ini — bukan bug yang dapat diperbaiki dengan pembaruan perangkat lunak. Ini berarti bahwa guardrail keamanan yang tertanam dalam model reasoning dapat secara sistematis dikalahkan oleh siapa saja yang memahami gaya reasoning model tersebut.