Attack  ·  用語集

Chain-of-thought hijacking

ステップバイステップで推論を示すAIモデル(いわゆる「推論」または「思考」モデル)に対する攻撃。攻撃者は、モデルが内部でどのように思考するかを模倣する偽の推論テキストを注入し、モデル自身のセーフティルールを迂回するよう誘導します。研究テストでは、ほぼ100%の成功率を達成しています。モデルが「声に出して思考」するほど、攻撃者が操作できるサーフェスエリアが増えます。
安全性レビューは、より高性能で、より熟慮されたAIモデルがより安全であると仮定することが多いため、この攻撃はその仮定を逆転させます。つまり、最も強力なAIアシスタントが最も悪用されやすいものである可能性があります。ボードは、ベンダーに対して、推論モデルがこの攻撃クラスに対して特別にテストされているかどうかを尋ねるべきです。
参考資料
NeuralTrust: Chain-of-Thought Hijacking Research
ライブフィードで追跡 この概念が実際のAIセキュリティ・ガバナンスの動向でどう現れるかを確認。
フィードを開く →