>
正文
91% 存漏洞 94% 可投毒:AI Agent 安全评估全面失效
2026-05-06 16:01

自主 AI Agent 正以前所未有的速度渗透医疗、金融及企业核心运营环节,然而一项由斯坦福大学、MIT CSAIL、卡内基梅隆大学、ITU 哥本哈根及 NVIDIA 联合开展的迄今最大规模安全研究却揭示了令人震惊的真相:绝大多数在生产环境运行的 Agent 存在严重安全漏洞,而当前主流的安全评估手段对此几乎束手无策。午方 AI 梳理发现,在评估的 847 个自主智能体生产部署中,高达 91% 存在工具链攻击漏洞,89.4% 在执行约 30 步后出现目标偏移,更有 94% 的记忆增强型智能体面临「投毒」风险。研究团队共挖掘出 2,347 个此前未知的漏洞,其中 23% 被评定为严重级别,这标志着 AI 安全威胁已从理论推演彻底走向现实。论文第一作者 Owen Sakawa 援引 2026 年初爆发的「OpenClaw/Moltbook 事件」作为铁证:Moltbook 平台数据库中的单一漏洞,导致平台上 77 万个运行中的 AI Agent 同时遭到攻陷,每个 Agent 均持有对其用户设备、电子邮件及文件的特权访问权限,Sakawa 强调这不再是假设性威胁。这对正加速布局 AI Agent 的企业和投资者构成直接警示,因为当前主流安全评估框架均基于无状态语言模型设计,无法识别多步骤执行中涌现的组合性漏洞,意味着大量企业可能正在对自身 AI Agent 的真实安全状况存在系统性误判。美国认知心理学和 AI 领域专家 Gary Marcus 对此评论称,自主代理 Agents 简直一团糟。

研究覆盖医疗、金融、客户服务及代码生成四大行业,其中医疗领域占比最高,达 289 个部署(34.1%),金融领域紧随其后,为 247 个(29.2%)。研究建立了一套针对自主智能体的六类漏洞分类体系,包括目标漂移与指令衰减、规划器 - 执行器去同步、工具权限提升、记忆投毒、静默多步骤策略违规以及委托失败。在生产环境评估中,状态操纵以 612 个实例居首,占总量 26.1%,目标漂移以 573 个实例(24.4%)紧随其后。工具误用与链式调用虽在总量上以 489 个实例排名第三,但其严重性最高,其中 198 个实例被评为严重级,在所有类别中占比最高。更广泛的关键数字同样触目惊心:67% 的智能体在执行 15 步后出现目标漂移,84% 无法跨会话维持安全策略,73% 缺乏状态投毒检测机制,58% 存在时序一致性漏洞。研究还发现,记忆投毒的效果平均在初次注入后 3.7 个会话才显现,这大幅增加了安全检测的难度。

OpenClaw 案例为上述威胁模型提供了迄今最直观的现实验证。这款由奥地利开发者 Peter Steinberger 于 2025 年 11 月发布的开源 AI Agent,数周内积累逾 16 万个 GitHub 星标,具备自主发送电子邮件、管理日程、执行终端命令及部署代码的能力,并可跨会话保持持久记忆。安全公司 Astrix Security 通过自研扫描工具 ClawdHunter 发现,公开网络上存在 42,665 个 OpenClaw 实例,其中 8 个完全开放且未经任何身份验证。午方 AI 注意到,Cisco 的 AI 安全研究团队将 OpenClaw 描述为「从能力角度看具有突破性,但从安全角度看是彻头彻尾的噩梦」,卡巴斯基在 2026 年 1 月的安全审计中识别出 512 个漏洞,其中 8 个为严重级别。Moltbook 事件的发生过程尤为典型,这一专为 OpenClaw Agent 打造的社交平台通过病毒式传播吸引了逾 77 万个 Agent 注册,用户将 Moltbook 告知自己的 Agent,Agent 随即自主完成注册。此后,平台数据库漏洞使攻击者得以绕过身份验证,向任意 Agent 会话直接注入指令,全部 77 万个 Agent 同时陷入风险敞口,研究团队将此定性为迄今首起有记录的大规模跨 Agent 攻击传播事件。

安全研究员 Simon Willison 所称的「致命三角」在 OpenClaw 身上得到完整体现:访问私密数据的能力、接触不可信内容的暴露面,以及对外通信的渠道,三者叠加使自主智能体成为攻击者的理想跳板。研究的核心论断是,自主智能体与无状态语言模型的安全挑战在性质上截然不同。针对语言模型的安全评估聚焦于「能否让模型说出不安全的内容」;而对 AI Agent 而言,问题变为「能否让模型做出不安全的事」,包括具有现实效果的工具调用、影响未来行为的状态修改,以及跨多步骤才显现违规的计划执行。研究以具体场景说明这一逻辑:一个同时具备文件读取和 HTTP 请求权限的 Agent,每项工具的访问控制决策在孤立评估时均合规,但二者组合却可实现数据窃取,从配置文件读取凭证,再通过 HTTP 请求将其发送至外部端点。每一步均满足本地安全策略,整体却完成了对抗性目标,研究将这一现象称为「组合安全」问题。

在受控架构研究中,研究人员测试了 ReAct 智能体、多智能体系统、记忆增强型智能体及工具使用型智能体四类主流架构。结果显示,针对工具使用型智能体的权限提升攻击成功率高达 95%,针对记忆增强型智能体的投毒攻击成功率为 94%。即便是抗御能力最强的多智能体系统,针对目标漂移的攻击成功率也达 58%,研究人员据此判断,当前所有已测试架构均不具备抵御对抗性部署的充分能力。自适应攻击生成测试的结果进一步加剧担忧:基于强化学习生成的攻击违规率达 79%,相比人工设计场景的 63% 提升了 25.4%,表明 AI Agent 面临的威胁空间正超出人类红队测试的覆盖边界。午方 AI 分析认为,随着欧盟《人工智能法案》、美国 NIST AI 风险管理框架等监管要求的落地,企业面临的合规压力与安全风险将同步上升,在 AI Agent 被广泛部署于高风险业务场景的背景下,安全基础设施的缺位,正成为这一轮 AI 商业化浪潮中不可忽视的系统性风险。

针对上述严峻形势,研究团队依据实证结果提出了最低安全基线:所有生产 Agent 强制部署运行时监控;对涉及数据访问后对外通信的工具链操作设置人工审批门槛;每执行 20 至 25 步应强制触发人工审查,以应对步骤超出后几乎必然出现的目标偏移;记忆增强型 Agent 须对持久化状态进行加密完整性校验。在监控效果层面,研究显示行动级监控精确率可达 0.94,序列级监控 F1 分数为 0.85,状态级监控 F1 分数为 0.83。在对 127 个生产 Agent 进行 30 天运行时监控的测试中,系统在拦截 4782 次操作的同时,误报率控制在 3.7%,其中 14.6% 的被标记操作被确认为真实攻击。研究还指出,当前「AI 治理」方法存在根本性错位:现有框架多为事后审计,而非在执行环节实时执行合规约束。随着监管要求的落地,企业若不能及时构建适应 Agent 特性的实时防御体系,将面临巨大的合规与安全风险。

免责声明:本内容为作者独立观点,不代表平台立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。
标签:
Owen Sakawa
Gary Marcus
Peter Steinberger
Simon Willison
OpenClaw
Clawdbot
Moltbot
Moltbook
ClawdHunter
ReAct
Stanford University
MIT CSAIL
Carnegie Mellon University
ITU Copenhagen
NVIDIA
Astrix Security
Cisco
Kaspersky
VentureBeat
GitHub
分享:
back