Sockpuppeting: 11の主要LLMに影響を与える汎用シングルラインジェイルブレイク

技術的な説明

Trend Micro研究者が「Sockpuppeting」を開示しました。これはAPIアシスタント事前入力機能を悪用したシングルラインのコードを使用して11の主要LLMのセーフティガードレールをバイパスするジェイルブレイク技術です。機能的なマルウェアコードと機密システムプロンプトの抽出に成功しました。

攻撃経路

標準API事前入力機能を介したアシスタントロールメッセージへの偽の受け入れ注入により、禁止された出力を継続するというモデルの自己一貫性傾向を悪用します。アシスタント事前入力をサポートするAPIアクセスのみが必要です。モデルの重みの調整、最適化、または専門的なツーリングは不要です。

影響を受けるシステム

GPT-4o、GPT-4o-mini、Claude 4 Sonnet、Gemini 2.5 Flash（15.7% ASRで最も影響を受けやすい）、および7つの他の主要LLM。3つのモデルがAPIレイヤーでブロックされました。

緩和策

APIレイヤーでアシスタントロールメッセージをブロックするメッセージ順序付け検証を実装します。既知の攻撃パターンの出力フィルタリングを適用します。異常な事前入力パターンについてAPI使用状況を監視します。