大模型安全层像电动车的限速器:厂商为了上牌必须装,用户为了跑得快,总有人去街角小店剪线。我的判断是:大模型安全层,本质上是可拆外壳。

5月25日,《金融时报》写到 Heretic 这把“剪线钳”。按 FT 与 Alice(做人工智能安全测试的团队)的测试,这套 GitHub 工具不到十分钟,就拆掉了 Meta(脸书母公司)的 Llama 3.3 安全层;按 News9 的转述,Heretic 作者还说,这套工具已做出 3500 多个“去限制”模型,累计下载 1300 万次。Google(谷歌)的回应更妙:这类去壳,对开放权重模型(把模型参数放出来供人下载和改造的模型)来说,是已知技术难题。

这条新闻真正反常识的地方,不是“坏人会不会拿去作恶”。那是废话。真正反常识的是:行业一直把一个后装件,说成了承重墙。大家以为安全是底盘,其实很多时候只是车漆;以为是骨头,其实不过是外套。

真正危险的,不是有人把护栏拆了;而是护栏从来就不是承重墙。

你去看 Heretic 的说明,它的卖点写得很直白:不是把模型弄傻,而是尽量保住原来的能力,只把“拒答”这一层拿掉。说穿了,它追求的不是砸车,而是拆限速器,还尽量不伤发动机。这里最刺眼的,不是技术炫耀,而是行业真相:今天不少所谓安全,不是“模型不会”,而是“模型会,但先学会说不”。

行业把拒答训练成礼貌,把社会误以为那是底线。礼貌会消失,能力不会。

把镜头拉近,你会看到三个房间。

第一个房间在宿舍。凌晨一点,二手显卡的风扇叫得像老空调,一个研究生照着说明跑脚本。十分钟后,原本一脸端庄的模型,开始回答它刚才还拒绝的问题。值得记住的不是“学生真厉害”,而是门槛已经从“懂模型内部”降到了“会跑命令”。过去拆壳像修表,现在拆壳像刷机。

Heretic 不是妖术,它只是把拆壳从手艺活做成了流水线。

第二个房间在一家创业公司的会议室。运营总监嫌客服机器人太保守,老是对灰色问题说“抱歉,我不能协助”。工程师没有恶意,他只是想把转化率抬高半个百分点,于是拿内部语料做一轮微调。第二天,机器人确实不那么爱拒答了,也不那么安全了。更要命的是,这不是阴谋,而是 KPI。连论文 《The Geometry of Alignment Collapse》(讲安全对齐为什么会在微调后塌掉)都在承认:哪怕是看上去无害的普通微调,也可能把安全护栏磨塌。也就是说,壳不一定非得用钳子拆,业务自己也会把它磨薄。

安全层如果靠后贴,它就和手机膜一个命运:总有人嫌碍手,一撕了之。

第三个房间不在实验室,在灰产机房里。二十几张旧卡插在铁架上,一个会写英文提示词的人坐在中间,旁边是复制粘贴的新人。去壳模型不需要统治世界,它只需要把钓鱼信写得更像恋人,把恶意代码讲得更像教程,把诱导话术说得比客服还耐心。以前这种活要找懂行的人,现在像请了一个不睡觉、不要分红、还能随时换皮的话术老师。

技术一旦下沉到民间硬盘里,治理语言就会从伦理学变成修理铺语言。

这就是 FT 这篇报道最该被看到的地方:Heretic 并没有创造邪恶,它只是把“控制权在谁手里”这件事摊平了。所谓安全层,如果主要靠后期对齐、拒答模板和表层行为约束来维持,那它就不是铁门,而是门帘。风一大,先飞的不是门,是帘子。

开放权重模型只是把真相摊在阳光下;闭源接口模型只是把剪线钳收进了后台。

所以我不太信那种轻飘飘的话:开放模型更危险,闭源模型更安全。更准确的说法是,开放模型让你看见壳能被拆;闭源模型只是让你暂时摸不到螺丝。区别不在壳是不是壳,而在谁保管工具箱。

接下来最滑稽的一幕,多半是各家继续把“更会拒答”包装成“更安全”。这像给一辆能飙到两百码的车,换一个更温柔的语音播报,然后告诉乘客:你看,它提醒得多文明。文明当然比粗暴好,但文明不是刹车片,礼貌也不是差速锁。

一层能被十分钟拆掉、被一次微调磨穿、被业务嫌碍事的东西,不配叫安全底座。它顶多算包装,精致一点叫外壳,难听一点叫道具。

以后谈大模型安全,我只认两样:一是能力本身有没有被结构性限制,二是模型离开厂商托管之后,风险还能不能被现实地约束。除此之外,那句熟悉的“抱歉,我不能协助”再响亮,也不过是机器学会了客气。

说得再刻薄一点:今天不少所谓大模型安全,像商场里的防盗标签,出门前叫得很响,出门后被人拿镊子一撬,衣服照样穿走。Heretic 只是替所有人把这层纸捅破了。