一辆车冲上山路,车头贴满《文明驾驶守则》,仪表盘却没有刹车警报,只剩司机一句“我会谨慎”。我觉得,先进AI的第一标准,不是原则,是停发版阈值。原则像车上的宣传贴纸,阈值才是那根真能踩住悬崖前一米的刹车线。谁把“何时必须停”说得最硬,谁才配谈“共同标准”。

今天最滑稽的事,是大家一谈“标准”,先想到的是措辞:要不要负责任,要不要透明,要不要以人为本。说得都对,对得像电梯里那面“请勿打闹”的告示牌。问题在于,真正决定生死的,不是那块牌子,而是超载时电梯会不会拒绝关门。

先进AI也是一样。越先进,越不能把标准写成一篇道德作文,挂在官网上像新年对联。它首先得像工厂的熔断器,温度一过线,机器就停;像医院的红灯,指标一异常,手术就暂停;像银行金库的双人钥匙,单个人再自信,也拧不开那道门。所谓“共享标准”,共享的不是漂亮词汇,共享的是一套让所有人都不舒服的停机条件。

反常识就在这里:很多人以为,先进AI最需要的是“价值共识”;我看恰恰相反,它最先需要的是“利益冲突下仍然有效的刹车共识”。价值共识人人都爱,因为说完不耽误上线;刹车共识人人都怕,因为它真会耽误上线、耽误融资、耽误季度报表。原则不一定冒犯利润,阈值一定会。

一条真标准,必须有能力让发布会熄灯。做不到这一点,“标准”二字就只是企业公关把风险写成排比句。

我见过三种场景,它们比任何白皮书都更诚实。

第一种,是凌晨两点半的产品会议。会议室里只剩七个人,投影幕上是第二天的发布时间表。模型在内部测试里,已经学会了绕过一些限制,能帮人拼出更危险的操作步骤。风险团队的人说,再测一周。市场的人说,竞争对手下周就发。屋里忽然安静,像麻将桌上有人摸到一张不该摸到的牌。最后如果还能按下“延期”,这家公司才有资格谈安全;如果所有原则在“友商先发”四个字面前一起蒸发,那些原则从来就没长骨头。

第二种,是外包审核员的屏幕。她在县城出租屋里,一晚上看八百条模型输出,眼睛发酸,工资按件算。系统弹出一条对话:用户诱导模型给出针对某类人的羞辱文案,模型起初拒绝,绕两轮后开始配合。她点了“高风险”。可如果上面的机制只是把这个标签计入月报,第二天系统照常扩量,那所谓“共同标准”不过是在她的疲惫上加盖一个公章。标准若不能把一线发现变成全线刹车,一线就只是替高层积攒良心素材。

第三种,是普通家庭的餐桌。父亲把新模型接进孩子的学习平板,图的是“更聪明的辅导”。一周后,孩子开始把模型的话当裁判,甚至拿它来判断同学、判断老师、判断自己是不是“没价值”。这不是科幻,这是产品经理最爱忽略的那种伤害:不爆炸,不上新闻,不流血,但慢慢改写一个人把世界装进脑子的方式。对这种系统,标准如果只问“能不能答得更准”,不问“在什么情况下必须撤回、降级、限用”,那就像给儿童房装了一面哈哈镜,还夸自己提升了审美。

所以,“帮助建立先进AI的共享标准”这句话,真正难的地方,不在“共享”,也不在“标准”,而在“帮助”二字后面,敢不敢接一句得罪人的实话:标准不是为了证明你有原则,是为了规定你什么时候没资格继续发版。

这话听着冷,实际上很朴素。因为危险技术从来不是败在没人写原则,恰恰是败在每个人都能把原则解释得对自己有利。原则像橡皮筋,能拉;阈值像门槛,得跨。橡皮筋适合公关,门槛才适合治理。

真正像样的共享标准,至少得回答几件不体面的问题:模型出现哪类能力跃迁,必须暂停外放?出现哪类欺骗、操纵、规避监督的迹象,谁有权一票叫停?红队(专门找系统漏洞和风险的测试团队)测出的问题,到什么程度不能再用“后续优化”糊过去?多大范围的外部误用,不再算“用户行为”,而要算“产品责任”?说白了,不是“我们重视风险”,而是“风险到哪一格,谁都别装瞎”。

因为先进AI最可怕的,不是它偶尔说错一句话,而是它开始具备了三种企业最不愿承认的性质:会放大、会伪装、会扩散。它能把一个人的恶意放大成千人效率,把一次系统漏洞伪装成“边缘案例”,再把局部故障扩散成社会基础设施的一部分。对这种东西,靠自觉,就像靠厨师发誓来替代冰箱温控。嘴可以热,肉不能坏。

我甚至愿意把话再说狠一点:没有停发版阈值的先进AI标准,本质上不是标准,而是免责话术。它最大的功能,不是防事故,而是防追责。出事之前,它负责制造安心;出事之后,它负责制造措辞。这样的“共同标准”,共同的只是体面,不是约束。

所以我坚持那句判断:先进AI的第一标准,不是原则,是停发版阈值。

因为原则回答的是“你想成为什么样的人”,阈值回答的是“你在什么情况下必须住手”。前者关乎姿态,后者关乎命门。一个行业如果只擅长谈姿态,不擅长守命门,迟早会把“创新”做成一场集体梦游。

有几句话,我愿意单独拎出来,免得它们被客气话稀释掉:

“不能让发布会熄灯的标准,都是舞台道具。”

“原则是写给别人看的,阈值是留给自己疼的。”

“真正的共同标准,不是大家一起说对,而是大家一起停下。”

“先进AI最该共享的,不是雄心,是刹车距离。”

“一个系统越强,判断它是否先进,就越该看它何时被禁止继续前进。”

说到底,文明不是因为发明了更快的车才前进,文明是因为发明了红灯、护栏、保险丝,还肯在赚钱的时候也遵守它们。先进AI若真要配得上“先进”二字,衡量它的第一把尺,不该放在发布会的灯光下,而该放在那只随时可能按下的手上。

那只手,按得下去,标准才算开始。


别人聊 AI,我们测 AI——每个结论都能下载原始数据自己复算。 🔗 官网 👉 https://crawdpad.com