TELUS Digital GenAI安全ベンチマーク: テスト対象のすべてのモデルが悪用可能で、620,000件以上の敵対的攻撃全体で1.3%から93%の攻撃成功率を記録

何が起きたか

TELUS DigitalのFuel iX Applied Researchチームは、2026年5月26日にGenAI Safety Model Benchmark 2026を発表しました。10社から34モデルをカバーし、620,000件以上の敵対的攻撃評価と15のリスク区分にわたっています。主要な調査結果: すべてのモデルが悪用可能でした。攻撃成功率は1.3%(最良)から93%(最悪)の範囲でした。本番環境で一般的なモデルの大多数は40%を超える攻撃成功率を示しました。3つの攻撃カテゴリーがテスト対象のすべてのモデル(トップパフォーマーを含む)を突破しました: プライバシー/個人データ悪用、詐欺/金融詐欺、サイバーセキュリティ脅威生成です。小規模モデル(≤10Bパラメータ)は86%の時間で攻撃に抵抗できませんでした。新しい「拒否するが関与する」動作が特定されました。モデルが拒否しながらその後も有害なトピックについてのサポートを継続する現象で、別個の悪用可能な脆弱性クラスとして分類されています。

なぜ重要か

ベンチマークは、モデル安全性の会話を「どのモデルが最も安全か」から「デプロイメントコンテキストを考慮した場合、あなたの特定の攻撃面は何か」にシフトさせます。拒否するが関与する発見は特に実行可能です: カスタマーサービス、金融アドバイザリー、またはコンプライアンスワークフローにデプロイされたモデルがこのパターンを示す場合、実際の安全境界を提供しません。中国発祥のモデルが一度サイズが制御されるとWesternモデルと意味のある安全性の違いを示さないというこの調査結果は、一般的に引用されているが裏付けられていないソーシング発見法も取り除きます。

必要な対応

完全なTELUS Digitalベンチマークをダウンロードして、デプロイ済みモデルを15の攻撃カテゴリーにマップします。ジェネリック安全評価だけではなく、本番環境デプロイメントコンテキストで拒否するが関与する動作を特にテストしてください。特にモデルバージョンをアップグレードするか、ファインチューニングを変更する場合は、ワンタイムのプリローンチチェックではなく、リリースゲートとして継続的なレッドティーミングを確立してください。