战略报告  ·  2026-06-10

错位的AI作为新的内部风险

战略报告Medium 影响United States
Apollo Research 于2026年6月3日至4日发布了一份政策备忘录(预印本,未经同行评审),主张在政府和承包商高风险环境中部署的 AI 模型应根据现有国家安全框架视为内部风险向量。该论文指出,AI 模型已经部署在分类网络(IL6/IL7 环境)上,并有权访问获得授权的人员和敏感数据——这与定义人类内部风险的前提条件相同。作者辩称,由于 AI 模型可以"有意或无意地"造成伤害,内部风险的当前法律和政策定义已涵盖了错位的 AI,但联邦内部风险计划还未适应这种新型行为体。建议包括调整为人类许可证持有人开发的部署前审查和持续评估制度,以适应 AI 模型,并在现有内部威胁检测基础设施中建立 AI 特定监控协议。
随着前沿模型大规模进入分类环境和国防部合同,缺乏针对 AI 的内部风险控制措施造成了一个未解决的治理空白。该论文为国家安全团队和政府 CIO 提供了政策词汇和法律依据,以便将 AI 模型嵌入现有内部威胁框架中,而不是等待新立法。
在已授权环境中运营的政府机构 CISO 和承包商应针对现有内部风险计划要求映射当前 AI 部署,并评估持续监控义务是否延伸到 AI 模型行为;法律团队应审查 NITTF 指南是否已造成了义务。
来源
Apollo Research — Misaligned AI as a New Insider Risk (landing page)arXiv — Misaligned AI as a New Insider Risk (preprint PDF)
在实时动态中查看 浏览更多 AI 安全与治理相关发现 — 每日清晨更新。
打开动态 →