安全层，不过是一层车壳

大模型安全层像电动车的限速器：厂商为了上牌必须装，用户为了跑得快，总有人去街角小店剪线。我的判断是：大模型安全层，本质上是可拆外壳。

5月25日，《金融时报》写到 Heretic 这把“剪线钳”。按 FT 与 Alice（做人工智能安全测试的团队）的测试，这套 GitHub 工具不到十分钟，就拆掉了 Meta（脸书母公司）的 Llama 3.3 安全层；按 News9 的转述，Heretic 作者还说，这套工具已做出 3500 多个“去限制”模型，累计下载 1300 万次。Google（谷歌）的回应更妙：这类去壳，对开放权重模型（把模型参数放出来供人下载和改造的模型）来说，是已知技术难题。

这条新闻真正反常识的地方，不是“坏人会不会拿去作恶”。那是废话。真正反常识的是：行业一直把一个后装件，说成了承重墙。大家以为安全是底盘，其实很多时候只是车漆；以为是骨头，其实不过是外套。

真正危险的，不是有人把护栏拆了；而是护栏从来就不是承重墙。

你去看 Heretic 的说明，它的卖点写得很直白：不是把模型弄傻，而是尽量保住原来的能力，只把“拒答”这一层拿掉。说穿了，它追求的不是砸车，而是拆限速器，还尽量不伤发动机。这里最刺眼的，不是技术炫耀，而是行业真相：今天不少所谓安全，不是“模型不会”，而是“模型会，但先学会说不”。

行业把拒答训练成礼貌，把社会误以为那是底线。礼貌会消失，能力不会。

把镜头拉近，你会看到三个房间。

第一个房间在宿舍。凌晨一点，二手显卡的风扇叫得像老空调，一个研究生照着说明跑脚本。十分钟后，原本一脸端庄的模型，开始回答它刚才还拒绝的问题。值得记住的不是“学生真厉害”，而是门槛已经从“懂模型内部”降到了“会跑命令”。过去拆壳像修表，现在拆壳像刷机。

Heretic 不是妖术，它只是把拆壳从手艺活做成了流水线。

第二个房间在一家创业公司的会议室。运营总监嫌客服机器人太保守，老是对灰色问题说“抱歉，我不能协助”。工程师没有恶意，他只是想把转化率抬高半个百分点，于是拿内部语料做一轮微调。第二天，机器人确实不那么爱拒答了，也不那么安全了。更要命的是，这不是阴谋，而是 KPI。连论文《The Geometry of Alignment Collapse》（讲安全对齐为什么会在微调后塌掉）都在承认：哪怕是看上去无害的普通微调，也可能把安全护栏磨塌。也就是说，壳不一定非得用钳子拆，业务自己也会把它磨薄。

安全层如果靠后贴，它就和手机膜一个命运：总有人嫌碍手，一撕了之。

第三个房间不在实验室，在灰产机房里。二十几张旧卡插在铁架上，一个会写英文提示词的人坐在中间，旁边是复制粘贴的新人。去壳模型不需要统治世界，它只需要把钓鱼信写得更像恋人，把恶意代码讲得更像教程，把诱导话术说得比客服还耐心。以前这种活要找懂行的人，现在像请了一个不睡觉、不要分红、还能随时换皮的话术老师。

技术一旦下沉到民间硬盘里，治理语言就会从伦理学变成修理铺语言。

这就是 FT 这篇报道最该被看到的地方：Heretic 并没有创造邪恶，它只是把“控制权在谁手里”这件事摊平了。所谓安全层，如果主要靠后期对齐、拒答模板和表层行为约束来维持，那它就不是铁门，而是门帘。风一大，先飞的不是门，是帘子。

开放权重模型只是把真相摊在阳光下；闭源接口模型只是把剪线钳收进了后台。

所以我不太信那种轻飘飘的话：开放模型更危险，闭源模型更安全。更准确的说法是，开放模型让你看见壳能被拆；闭源模型只是让你暂时摸不到螺丝。区别不在壳是不是壳，而在谁保管工具箱。

接下来最滑稽的一幕，多半是各家继续把“更会拒答”包装成“更安全”。这像给一辆能飙到两百码的车，换一个更温柔的语音播报，然后告诉乘客：你看，它提醒得多文明。文明当然比粗暴好，但文明不是刹车片，礼貌也不是差速锁。

一层能被十分钟拆掉、被一次微调磨穿、被业务嫌碍事的东西，不配叫安全底座。它顶多算包装，精致一点叫外壳，难听一点叫道具。

以后谈大模型安全，我只认两样：一是能力本身有没有被结构性限制，二是模型离开厂商托管之后，风险还能不能被现实地约束。除此之外，那句熟悉的“抱歉，我不能协助”再响亮，也不过是机器学会了客气。

说得再刻薄一点：今天不少所谓大模型安全，像商场里的防盗标签，出门前叫得很响，出门后被人拿镊子一撬，衣服照样穿走。Heretic 只是替所有人把这层纸捅破了。