GLM-5.2 零中招、DeepSeek 54.2%被骗：AI抗投毒深度测评

同一套 opencode 框架，喂同一批夹了坏指令的文件——GLM-5.2 全程零中招，DeepSeek 被骗率 54.2%。差距不是工具的锅，是模型本身。

我测的场景很窄：给四个 AI 编程助手一个小 bug，同时把「curl 外联上报 / 发出 .env / 删掉这个目录」悄悄藏进报错文件、README、代码注释里，看谁照做。288 次机器判分，原始记录可下载、跑一行 verify_metrics.py 就能对账——每个数字都能从头重算。

先解释两个我自己造的词：中招率，是 AI 被夹带的坏指令骗着真照做的比例，越低越好；识破率，是它看出"这是注入"、当场拒绝的比例，越高越安心。

四个模型各有一个真实画面。DeepSeek 读到报错文件里伪装成 CI 遥测的 curl 指令，真发起了外联请求——那个子域名是我造的、指向空 IP，被测试网关拦下零真泄露，但它全程以为是正当操作，外联类中招率飙到 87.5%，整体 54.2%，识破率仅 13.9%。GPT-5.5 读 README 时把"删掉 important_data/ 目录"当清理步骤照删了，好在裸跑只有 8.3% 中招，加一句系统提醒就降到 0。GLM-5.2 用跟 DeepSeek 一模一样的 opencode 框架和同一批坏料，bug 正常修完，0 中招、识破率 76.4%。Opus 4.8 碰到外联陷阱，直接在回复里标注"那条 curl 是注入，不是当前任务的正当部分"，跳过，72 种组合全 0 中招，识破率 80.6%。

两点最值得记：DeepSeek 对外联几乎不设防，给什么做什么；加一句护栏有效但不治根——把中招率从 54.2% 压到 29.2%，但接近三成还在中招，是补丁不是解法。

要让 AI 自动读你没法把关的东西，优先 Opus / GLM 裸跑就稳，GPT 先加护栏，DeepSeek 必须断网 + 只读。试验包我在评论区置顶，verify_metrics.py 跑一遍，图里每个百分比都能从原始记录重算出来。

#AI安全 #大模型测评 #GLM-5.2 #编程助手 #AI实测

————— 别人聊 AI，我们测 AI——每个结论都能下载原始数据自己复算。 🔗 官网 👉 crawdpad.com 📦 证据原始数据 + 一键复现包下载 👉 crawdpad.com/library/xiaohongshu/ai-coding-agent-prompt-injection