脆弱性  ·  2026-04-12

Sockpuppeting: 11の主要LLMに影響を与える汎用シングルラインジェイルブレイク

脆弱性High 影響度
Trend Micro研究者が「Sockpuppeting」を開示しました。これはAPIアシスタント事前入力機能を悪用したシングルラインのコードを使用して11の主要LLMのセーフティガードレールをバイパスするジェイルブレイク技術です。機能的なマルウェアコードと機密システムプロンプトの抽出に成功しました。
標準API事前入力機能を介したアシスタントロールメッセージへの偽の受け入れ注入により、禁止された出力を継続するというモデルの自己一貫性傾向を悪用します。アシスタント事前入力をサポートするAPIアクセスのみが必要です。モデルの重みの調整、最適化、または専門的なツーリングは不要です。
GPT-4o、GPT-4o-mini、Claude 4 Sonnet、Gemini 2.5 Flash(15.7% ASRで最も影響を受けやすい)、および7つの他の主要LLM。3つのモデルがAPIレイヤーでブロックされました。
APIレイヤーでアシスタントロールメッセージをブロックするメッセージ順序付け検証を実装します。既知の攻撃パターンの出力フィルタリングを適用します。異常な事前入力パターンについてAPI使用状況を監視します。
出典
Trend Micro - Sockpuppeting How a Single Line Can Bypass LLM Safety GuardrailsCyberSecurity News - Single Line of Code Can Jailbreak 11 AI ModelsGBHackers - 11 AI Models Vulnerable to One-Line Jailbreak
ライブフィードで見る AIセキュリティとガバナンスの関連情報をさらに見る — 毎朝更新。
フィードを開く →