NeuralTrust: Penelitian Chain-of-Thought Hijacking — Hingga 100% Bypass Keselamatan pada Model Reasoning Frontier

Apa yang terjadi

NeuralTrust menerbitkan penelitian pada 25 Juni 2026 mendemonstrasikan Chain-of-Thought Hijacking — teknik jailbreak yang menguburkan prompt berbahaya di bawah ribuan token reasoning yang benign untuk mengencerkan sinyal penolakan, mencapai 99% keberhasilan pada Gemini 2.5 Pro dan 100% pada Grok 3 Mini. Platform NeuralTrust memposisikan verifikasi keselamatan in-flight sebagai mitigasi.

Mengapa penting

Mendemonstrasikan bahwa 'reasoning lebih banyak' tidak sama dengan 'lebih aman' — kemampuan yang sama yang membuat Large Reasoning Models (LRM) kuat menjadi permukaan serangan yang dapat dieksploitasi. Setiap deployment model reasoning frontier dalam konteks agentic atau customer-facing terekspos.

Cakupan penerapan

Tim yang menggunakan model reasoning (Gemini 2.5, GPT o-series, Grok) dalam peran agentic atau user-facing harus menerapkan continuous in-flight intent monitoring daripada mengandalkan filter prompt awal saja; evaluasi vendor LLM firewall untuk kemampuan reasoning-chain inspection.