Question 1

Chain-of-thought hijackingとは？

Accepted Answer

ステップバイステップで推論を示すAIモデル（いわゆる「推論」または「思考」モデル）に対する攻撃。攻撃者は、モデルが内部でどのように思考するかを模倣する偽の推論テキストを注入し、モデル自身のセーフティルールを迂回するよう誘導します。研究テストでは、ほぼ100%の成功率を達成しています。モデルが「声に出して思考」するほど、攻撃者が操作できるサーフェスエリアが増えます。

Question 2

Chain-of-thought hijackingはAIセキュリティでなぜ重要か？

Accepted Answer

安全性レビューは、より高性能で、より熟慮されたAIモデルがより安全であると仮定することが多いため、この攻撃はその仮定を逆転させます。つまり、最も強力なAIアシスタントが最も悪用されやすいものである可能性があります。ボードは、ベンダーに対して、推論モデルがこの攻撃クラスに対して特別にテストされているかどうかを尋ねるべきです。