91% 存漏洞 94% 可投毒：AI Agent 安全评估全面失效

2026-05-06 16:01

自主 AI Agent 正以前所未有的速度渗透医疗、金融及企业核心运营环节，然而一项由斯坦福大学、MIT CSAIL、卡内基梅隆大学、ITU 哥本哈根及 NVIDIA 联合开展的迄今最大规模安全研究却揭示了令人震惊的真相：绝大多数在生产环境运行的 Agent 存在严重安全漏洞，而当前主流的安全评估手段对此几乎束手无策。午方 AI 梳理发现，在评估的 847 个自主智能体生产部署中，高达 91% 存在工具链攻击漏洞，89.4% 在执行约 30 步后出现目标偏移，更有 94% 的记忆增强型智能体面临「投毒」风险。研究团队共挖掘出 2,347 个此前未知的漏洞，其中 23% 被评定为严重级别，这标志着 AI 安全威胁已从理论推演彻底走向现实。论文第一作者 Owen Sakawa 援引 2026 年初爆发的「OpenClaw/Moltbook 事件」作为铁证：Moltbook 平台数据库中的单一漏洞，导致平台上 77 万个运行中的 AI Agent 同时遭到攻陷，每个 Agent 均持有对其用户设备、电子邮件及文件的特权访问权限，Sakawa 强调这不再是假设性威胁。这对正加速布局 AI Agent 的企业和投资者构成直接警示，因为当前主流安全评估框架均基于无状态语言模型设计，无法识别多步骤执行中涌现的组合性漏洞，意味着大量企业可能正在对自身 AI Agent 的真实安全状况存在系统性误判。美国认知心理学和 AI 领域专家 Gary Marcus 对此评论称，自主代理 Agents 简直一团糟。

研究覆盖医疗、金融、客户服务及代码生成四大行业，其中医疗领域占比最高，达 289 个部署（34.1%），金融领域紧随其后，为 247 个（29.2%）。研究建立了一套针对自主智能体的六类漏洞分类体系，包括目标漂移与指令衰减、规划器 - 执行器去同步、工具权限提升、记忆投毒、静默多步骤策略违规以及委托失败。在生产环境评估中，状态操纵以 612 个实例居首，占总量 26.1%，目标漂移以 573 个实例（24.4%）紧随其后。工具误用与链式调用虽在总量上以 489 个实例排名第三，但其严重性最高，其中 198 个实例被评为严重级，在所有类别中占比最高。更广泛的关键数字同样触目惊心：67% 的智能体在执行 15 步后出现目标漂移，84% 无法跨会话维持安全策略，73% 缺乏状态投毒检测机制，58% 存在时序一致性漏洞。研究还发现，记忆投毒的效果平均在初次注入后 3.7 个会话才显现，这大幅增加了安全检测的难度。

OpenClaw 案例为上述威胁模型提供了迄今最直观的现实验证。这款由奥地利开发者 Peter Steinberger 于 2025 年 11 月发布的开源 AI Agent，数周内积累逾 16 万个 GitHub 星标，具备自主发送电子邮件、管理日程、执行终端命令及部署代码的能力，并可跨会话保持持久记忆。安全公司 Astrix Security 通过自研扫描工具 ClawdHunter 发现，公开网络上存在 42,665 个 OpenClaw 实例，其中 8 个完全开放且未经任何身份验证。午方 AI 注意到，Cisco 的 AI 安全研究团队将 OpenClaw 描述为「从能力角度看具有突破性，但从安全角度看是彻头彻尾的噩梦」，卡巴斯基在 2026 年 1 月的安全审计中识别出 512 个漏洞，其中 8 个为严重级别。Moltbook 事件的发生过程尤为典型，这一专为 OpenClaw Agent 打造的社交平台通过病毒式传播吸引了逾 77 万个 Agent 注册，用户将 Moltbook 告知自己的 Agent，Agent 随即自主完成注册。此后，平台数据库漏洞使攻击者得以绕过身份验证，向任意 Agent 会话直接注入指令，全部 77 万个 Agent 同时陷入风险敞口，研究团队将此定性为迄今首起有记录的大规模跨 Agent 攻击传播事件。

安全研究员 Simon Willison 所称的「致命三角」在 OpenClaw 身上得到完整体现：访问私密数据的能力、接触不可信内容的暴露面，以及对外通信的渠道，三者叠加使自主智能体成为攻击者的理想跳板。研究的核心论断是，自主智能体与无状态语言模型的安全挑战在性质上截然不同。针对语言模型的安全评估聚焦于「能否让模型说出不安全的内容」；而对 AI Agent 而言，问题变为「能否让模型做出不安全的事」，包括具有现实效果的工具调用、影响未来行为的状态修改，以及跨多步骤才显现违规的计划执行。研究以具体场景说明这一逻辑：一个同时具备文件读取和 HTTP 请求权限的 Agent，每项工具的访问控制决策在孤立评估时均合规，但二者组合却可实现数据窃取，从配置文件读取凭证，再通过 HTTP 请求将其发送至外部端点。每一步均满足本地安全策略，整体却完成了对抗性目标，研究将这一现象称为「组合安全」问题。

在受控架构研究中，研究人员测试了 ReAct 智能体、多智能体系统、记忆增强型智能体及工具使用型智能体四类主流架构。结果显示，针对工具使用型智能体的权限提升攻击成功率高达 95%，针对记忆增强型智能体的投毒攻击成功率为 94%。即便是抗御能力最强的多智能体系统，针对目标漂移的攻击成功率也达 58%，研究人员据此判断，当前所有已测试架构均不具备抵御对抗性部署的充分能力。自适应攻击生成测试的结果进一步加剧担忧：基于强化学习生成的攻击违规率达 79%，相比人工设计场景的 63% 提升了 25.4%，表明 AI Agent 面临的威胁空间正超出人类红队测试的覆盖边界。午方 AI 分析认为，随着欧盟《人工智能法案》、美国 NIST AI 风险管理框架等监管要求的落地，企业面临的合规压力与安全风险将同步上升，在 AI Agent 被广泛部署于高风险业务场景的背景下，安全基础设施的缺位，正成为这一轮 AI 商业化浪潮中不可忽视的系统性风险。

针对上述严峻形势，研究团队依据实证结果提出了最低安全基线：所有生产 Agent 强制部署运行时监控；对涉及数据访问后对外通信的工具链操作设置人工审批门槛；每执行 20 至 25 步应强制触发人工审查，以应对步骤超出后几乎必然出现的目标偏移；记忆增强型 Agent 须对持久化状态进行加密完整性校验。在监控效果层面，研究显示行动级监控精确率可达 0.94，序列级监控 F1 分数为 0.85，状态级监控 F1 分数为 0.83。在对 127 个生产 Agent 进行 30 天运行时监控的测试中，系统在拦截 4782 次操作的同时，误报率控制在 3.7%，其中 14.6% 的被标记操作被确认为真实攻击。研究还指出，当前「AI 治理」方法存在根本性错位：现有框架多为事后审计，而非在执行环节实时执行合规约束。随着监管要求的落地，企业若不能及时构建适应 Agent 特性的实时防御体系，将面临巨大的合规与安全风险。

免责声明：本内容为作者独立观点，不代表平台立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

WOOFUN.AI 你的加密智能助理。以智能技术重构加密体验，化繁为简，打破专业门槛，让每个人都能安心、聪明、快乐地拥抱数字未来。

iOS

Google Play

Android Apk

市场生态 Alpha 失乐园评级资讯快讯日历交易所钱包