2000人来试着黑它后，我先删的不是提示词

⚠️ 如果你平时只把大模型当聊天框，最近又开始想把它接到邮箱、社媒或客服，这条跟你有关系。

很多人刷到“2000人试着攻击我的智能助手”这种消息，会先想：是不是提示词没写严？但你如果在这一步判断错了，后面花掉的就不只是10分钟，而是时间、预算，甚至账号本身。因为一旦助手真的能替你发邮件、改绑定、碰密码，出事就不是“聊输了”，而是“它替别人动手了”。

我后来改掉的第一个判断就是这个：AI被黑，多半不是咒语失守，而是权限失控。[C002]

这也是为什么，我先删的不是聊天框里的规则，而是高权限。发邮件、改绑定邮箱、触发密码重置，这些能力平时看着最省事，出事时也最致命。更隐性的代价，是你会一直围着表面热闹转，以为该补的是文案和提示词，却没看到真正该先补的是权限分层。

把这个判断钉住的，不是情绪，是两个很具体的场景。

第一，是邮件助手那类产品。那篇《What happened after 2,000 people tried to hack my AI assistant》（2000人试着攻击我的智能助手之后，发生了什么）让我回头去看邮件助手攻防，里面提到 208,095 条独特攻击样本，很多攻击的目标都不是“把模型说服”，而是诱导它触发未授权的 send_email 工具调用，也就是未经允许帮人把邮件发出去。[C001][C003]

这件事重要，不是因为数字大，而是它把问题说穿了：真正危险的地方，不在聊天文本本身，而在助手手里到底有没有“能替你做事”的权力。[C003]

第二，是 Meta 智能客服机器人的例子。它曾被诱导把 Instagram 账号绑定到新邮箱，再触发密码重置。[C004] 这就更好懂了：只要 AI 已经接上真实账户，原本看起来像聊天失误的问题，下一秒就会变成安全事故。[C004]

所以我现在看一个智能助手，不先看它会说多少漂亮话，也不先看它接了多少新功能。我先看一件事：它到底能替我动哪几步手。

一条更新值不值得看，不看它列了多少功能，先看它会不会改掉你下一步的判断。

如果你目前只是拿它当聊天框，这事可以先记住，不用立刻紧张。但如果你正准备把它接到邮箱、社媒账号、客服系统，第一步真不是再补几层提示词，而是先把高权限收回去，至少先重新看一遍：发邮件、改绑定邮箱、密码重置，哪些根本不该默认开放。

这条你可以直接转给正在接这些能力的人。因为很多人现在最缺的，不是又一篇安全新闻，而是这个顺序：先删高权限，再谈怎么把规则写严。你会先关掉哪一个？