22个改题动作，把模型高分打回原形

⚠️ 只会用聊天型大模型、最近开始想跟进 AI 新工具的人，最容易在这条消息上看错方向。你最烦的，就是看完一堆更新还是不知道跟自己有没有关系、现在要不要跟。今天这个坑更隐蔽：你刚刷到它，手都准备划走了，又怕自己慢半拍；真要判断错，后面花掉的不是几分钟，而是时间、预算和注意力。那条标题写着“Introducing GeneBench-Pro”，其实就是在介绍一个新的代码评测名字。[C001]

我后来觉得，这条更新最值钱的不是又多了一个榜单，而是它逼我改了判断：给题目加依赖，比给模型加参数更见真章。[C002] 一条更新值不值得看，不看它列了多少功能，先看它会不会改掉你下一步的判断。

它到底怎么改题？不是简单多塞几道题，而是用了 22 个变换算子，把并发（几件事一起跑）、接口依赖（要先接上别的东西）、装饰器这种“原本只写函数，结果外面又多套一层规则”的东西加进去。[C003] 说白了，就是故意把题目弄得没那么干净，看看模型一旦要和别的步骤互相配合，会不会开始掉链子。

结果很直接：同样 13 个模型，放进四类评测后，分数整体掉了 14.9% 到 60.5%，平均掉 35.2%。[C003] 另一组 500 个失败样本里，逻辑错误占 56.2%，依赖错误占 38.0%。[C004] 这比“会不会答出一道题”更关键，因为很多高分未必是模型真稳，也可能只是题太干净。

但这还不能直接等于真实项目，只能说它比干净题更容易把短板翻出来。如果你现在只是拿模型聊天、润色、查资料，不用追这么细；但只要你下一步想让它写代码、做自动化、搭多步骤流程，这条先收藏。以后看工具，先问它一遇到依赖和多步骤会不会散架，再看它的高分好不好看。

🤔 你现在最想先避开的，是哪一个坑？