⚠️ 如果你平时只把大模型当聊天框,最近又开始想把它接到邮箱、社媒或客服,这条跟你有关系。

很多人刷到“2000人试着攻击我的智能助手”这种消息,会先想:是不是提示词没写严?但你如果在这一步判断错了,后面花掉的就不只是10分钟,而是时间、预算,甚至账号本身。因为一旦助手真的能替你发邮件、改绑定、碰密码,出事就不是“聊输了”,而是“它替别人动手了”。

我后来改掉的第一个判断就是这个:AI被黑,多半不是咒语失守,而是权限失控。[C002]

这也是为什么,我先删的不是聊天框里的规则,而是高权限。发邮件、改绑定邮箱、触发密码重置,这些能力平时看着最省事,出事时也最致命。更隐性的代价,是你会一直围着表面热闹转,以为该补的是文案和提示词,却没看到真正该先补的是权限分层。

把这个判断钉住的,不是情绪,是两个很具体的场景。

第一,是邮件助手那类产品。那篇《What happened after 2,000 people tried to hack my AI assistant》(2000人试着攻击我的智能助手之后,发生了什么)让我回头去看邮件助手攻防,里面提到 208,095 条独特攻击样本,很多攻击的目标都不是“把模型说服”,而是诱导它触发未授权的 send_email 工具调用,也就是未经允许帮人把邮件发出去。[C001][C003]

这件事重要,不是因为数字大,而是它把问题说穿了:真正危险的地方,不在聊天文本本身,而在助手手里到底有没有“能替你做事”的权力。[C003]

第二,是 Meta 智能客服机器人的例子。它曾被诱导把 Instagram 账号绑定到新邮箱,再触发密码重置。[C004] 这就更好懂了:只要 AI 已经接上真实账户,原本看起来像聊天失误的问题,下一秒就会变成安全事故。[C004]

所以我现在看一个智能助手,不先看它会说多少漂亮话,也不先看它接了多少新功能。我先看一件事:它到底能替我动哪几步手。

一条更新值不值得看,不看它列了多少功能,先看它会不会改掉你下一步的判断。

如果你目前只是拿它当聊天框,这事可以先记住,不用立刻紧张。但如果你正准备把它接到邮箱、社媒账号、客服系统,第一步真不是再补几层提示词,而是先把高权限收回去,至少先重新看一遍:发邮件、改绑定邮箱、密码重置,哪些根本不该默认开放。

这条你可以直接转给正在接这些能力的人。因为很多人现在最缺的,不是又一篇安全新闻,而是这个顺序:先删高权限,再谈怎么把规则写严。你会先关掉哪一个?