GeneBench-Pro：让题目住进老小区

给模型加参数，像给样板间换更大的吊灯；给题目加依赖，才是把它塞进老小区，和水管、电表、邻居、物业一起过日子。我对 GeneBench-Pro 的判断很明确：给题目加依赖，比给模型加参数更见真章。

参数当然重要。谁也不会嫌脑子大，正如开发商不会嫌户型图漂亮。问题是，样板间最会骗人。地板锃亮，抽油烟机没开过，厕所从不反味，连阳台上的风都像售楼处调好的。你在里面走两圈，会误以为生活不过是把家具摆正。

今天不少模型评测，恰恰就活在这种样板间里。一个函数，几行输入，几个测试点，没有第三方库，没有跨文件调用，没有历史包袱，没有谁改一行会牵出三处副作用。模型在这里拿高分，不稀奇。它答的是题，不是现实。

真正折人的，从来不是“难”，而是“牵连”。

周五晚上十点四十，后端工程师阿岑只想改一个优惠券门槛：满299减40改成满269减30。看上去是一行数字。结果那行数字后面拴着库存服务、支付回调、短信模板和财务导出。她刚把本地测试跑绿，持续集成自动检查又炸了，因为另一个文件里有个老装饰器偷偷改了返回值格式。题目没变长，关系变多了。模型也是一样：它怕的不是大数字，是小改动背后的亲戚。

简单题考的是答案，复杂依赖考的是秩序。

再看另一个场景。实习生小梁第一天进组，白板题写得像教科书，反转链表行云流水。下午接到一个修复任务：日志重复打印。函数本身不难，难的是它被三个模块共用，线上还挂着一个异步线程，另有一个第三方接口在失败时会重试。到晚上七点，他终于明白，工程不是一堆函数排队站好，而是一群关系户互相借身份证。你以为在改代码，其实是在摸一张族谱。

单文件里的天才，进了仓库，常常只是个识字的人。

第三个场景更滑稽。招聘会上，一个候选人把算法题做得干净利落，像刀切豆腐。入职三天后，他卡在一个看似普通的日期处理函数上。函数没多难，难在它上游吃的是旧接口，下游喂的是报表系统，中间还夹着时区配置、缓存过期和一段谁也不敢删的兼容逻辑。白板上的聪明，是独唱；仓库里的聪明，是合奏。独唱靠嗓子，合奏靠耳朵。

把题目做难，不算本事；把题目做得像生活，才算本事。

所以我看 GeneBench-Pro，最值得介绍的，不是它又把题库刷出多少新纪录，而是它终于不再把“能力”理解成单兵突击。它如果真有锋芒，锋芒就在这里：给题目安上邻居，装上门牌，拉进电线，接进下水道。让一段代码不再孤零零站着，而是被线程、模块、配置、第三方接口和副作用围起来。一个模型在这种题里摔跤，才是有信息量的摔跤；因为它摔的不是小聪明，而是世界观。

参数像体重秤上的数字，依赖像厨房里那团煤气管。

前者适合发布会，后者决定你敢不敢开火。

这件事还有一层更深的意思。我们这些年谈智能，谈得太像健身房。谁更大，谁更猛，谁数字更漂亮，谁就更像下一代答案。可真正的人类能力，从来不是孤零零长在脑门上的一块肉。一个人会不会过日子，不看他在自习室里背了多少定义，要看他能不能同时应付房租、父母的体检单、老板半夜的消息、楼下断网和银行卡的自动扣款。能力不是孤岛，能力是处理缠绕。

模型也一样。你把它关在干净题目里，它当然像神童；你把它放进依赖网络里，它才开始像成年人。神童靠记忆发亮，成年人靠协调活着。

真正的智能，不怕长题，怕的是题目突然有亲戚。

GeneBench-Pro 这四个字里，我最喜欢的不是“Pro”，而是那个“Bench”终于不再像展台，而更像街道。展台只负责陈列，街道负责碰撞。展台上的鞋永远不脏，街道上的鞋才知道路有没有坑。一个评测体系若只会在展台上夸模型步态优雅，那不是测能力，那是拍画报。

给模型加参数，是给西装垫肩；给题目加依赖，才是让人去搬箱子。谁真有力气，一上肩就知道。

我认这个判断，而且认得很死：给题目加依赖，比给模型加参数更见真章。因为参数决定你能把话说得多像，依赖决定你能不能在世界里把事办成。

别人聊 AI，我们测 AI——每个结论都能下载原始数据自己复算。 🔗 官网 👉 https://crawdpad.com