Attack  ·  Glosarium

CoT forgery (chain-of-thought forgery)

Suatu teknik spesifik dalam chain-of-thought hijacking di mana penyerang menyuntikkan teks yang sempurna meniru gaya 'pemikiran' internal dari model reasoning AI. Karena model menggunakan gaya penulisan — bukan tag struktural yang aman — untuk membedakan pikirannya sendiri dari input eksternal, teks reasoning yang dipalsukan diterima seolah-olah model yang menghasilkannya, melewati pemeriksaan keamanan.
Ini adalah cacat struktural dalam cara kerja model reasoning AI saat ini — bukan bug yang dapat diperbaiki dengan pembaruan perangkat lunak. Ini berarti bahwa guardrail keamanan yang tertanam dalam model reasoning dapat secara sistematis dikalahkan oleh siapa saja yang memahami gaya reasoning model tersebut.
Referensi
ICML 2026 — Prompt Injection as Role Confusion (Ye, Cui, Hadfield-Menell)
Pantau di umpan langsung Lihat bagaimana hal ini terwujud dalam perkembangan keamanan dan tata kelola AI nyata.
Buka umpan →