NeuralTrust: 思考の連鎖ハイジャッキング研究 — フロンティア推論モデル上での最大100%の安全性バイパス

何が起きたか

NeuralTrustは2026年6月25日に思考の連鎖ハイジャッキング研究を発表した。これは有害なプロンプトを数千トークンの良性推論の下に埋め込み拒否信号を希釈するジェイルブレイク手法であり、Gemini 2.5 Proで99%、Grok 3 Miniで100%の成功率を達成している。NeuralTrustのプラットフォームは進行中の安全性検証を軽減策として位置づけている。

なぜ重要か

「より多く推論すること」が「より安全であること」と等しくないことを実証している。大規模推論モデル(LRM)を強力にする機能そのものが悪用可能な攻撃面になる。エージェント型またはカスタマー向けコンテキストでのフロンティア推論モデルの展開は露出している。

適用範囲

推論モデル(Gemini 2.5、GPT o-series、Grok)をエージェント型またはユーザー向けの役割に展開するチームは、初期プロンプトフィルタのみに依存するのではなく、継続的な進行中の意図監視を実装すべきである。推論チェーン検査機能を備えたLLMファイアウォールベンダーを評価すること。