给模型加参数,像给样板间换更大的吊灯;给题目加依赖,才是把它塞进老小区,和水管、电表、邻居、物业一起过日子。我对 GeneBench-Pro 的判断很明确:给题目加依赖,比给模型加参数更见真章。
参数当然重要。谁也不会嫌脑子大,正如开发商不会嫌户型图漂亮。问题是,样板间最会骗人。地板锃亮,抽油烟机没开过,厕所从不反味,连阳台上的风都像售楼处调好的。你在里面走两圈,会误以为生活不过是把家具摆正。
今天不少模型评测,恰恰就活在这种样板间里。一个函数,几行输入,几个测试点,没有第三方库,没有跨文件调用,没有历史包袱,没有谁改一行会牵出三处副作用。模型在这里拿高分,不稀奇。它答的是题,不是现实。
真正折人的,从来不是“难”,而是“牵连”。
周五晚上十点四十,后端工程师阿岑只想改一个优惠券门槛:满299减40改成满269减30。看上去是一行数字。结果那行数字后面拴着库存服务、支付回调、短信模板和财务导出。她刚把本地测试跑绿,持续集成自动检查又炸了,因为另一个文件里有个老装饰器偷偷改了返回值格式。题目没变长,关系变多了。模型也是一样:它怕的不是大数字,是小改动背后的亲戚。
简单题考的是答案,复杂依赖考的是秩序。
再看另一个场景。实习生小梁第一天进组,白板题写得像教科书,反转链表行云流水。下午接到一个修复任务:日志重复打印。函数本身不难,难的是它被三个模块共用,线上还挂着一个异步线程,另有一个第三方接口在失败时会重试。到晚上七点,他终于明白,工程不是一堆函数排队站好,而是一群关系户互相借身份证。你以为在改代码,其实是在摸一张族谱。
单文件里的天才,进了仓库,常常只是个识字的人。
第三个场景更滑稽。招聘会上,一个候选人把算法题做得干净利落,像刀切豆腐。入职三天后,他卡在一个看似普通的日期处理函数上。函数没多难,难在它上游吃的是旧接口,下游喂的是报表系统,中间还夹着时区配置、缓存过期和一段谁也不敢删的兼容逻辑。白板上的聪明,是独唱;仓库里的聪明,是合奏。独唱靠嗓子,合奏靠耳朵。
把题目做难,不算本事;把题目做得像生活,才算本事。
所以我看 GeneBench-Pro,最值得介绍的,不是它又把题库刷出多少新纪录,而是它终于不再把“能力”理解成单兵突击。它如果真有锋芒,锋芒就在这里:给题目安上邻居,装上门牌,拉进电线,接进下水道。让一段代码不再孤零零站着,而是被线程、模块、配置、第三方接口和副作用围起来。一个模型在这种题里摔跤,才是有信息量的摔跤;因为它摔的不是小聪明,而是世界观。
参数像体重秤上的数字,依赖像厨房里那团煤气管。
前者适合发布会,后者决定你敢不敢开火。
这件事还有一层更深的意思。我们这些年谈智能,谈得太像健身房。谁更大,谁更猛,谁数字更漂亮,谁就更像下一代答案。可真正的人类能力,从来不是孤零零长在脑门上的一块肉。一个人会不会过日子,不看他在自习室里背了多少定义,要看他能不能同时应付房租、父母的体检单、老板半夜的消息、楼下断网和银行卡的自动扣款。能力不是孤岛,能力是处理缠绕。
模型也一样。你把它关在干净题目里,它当然像神童;你把它放进依赖网络里,它才开始像成年人。神童靠记忆发亮,成年人靠协调活着。
真正的智能,不怕长题,怕的是题目突然有亲戚。
GeneBench-Pro 这四个字里,我最喜欢的不是“Pro”,而是那个“Bench”终于不再像展台,而更像街道。展台只负责陈列,街道负责碰撞。展台上的鞋永远不脏,街道上的鞋才知道路有没有坑。一个评测体系若只会在展台上夸模型步态优雅,那不是测能力,那是拍画报。
给模型加参数,是给西装垫肩;给题目加依赖,才是让人去搬箱子。谁真有力气,一上肩就知道。
我认这个判断,而且认得很死:给题目加依赖,比给模型加参数更见真章。因为参数决定你能把话说得多像,依赖决定你能不能在世界里把事办成。
别人聊 AI,我们测 AI——每个结论都能下载原始数据自己复算。 🔗 官网 👉 https://crawdpad.com