提示词只是香水，评测器才是刀

我看 llm-coding-agent 0.1a0（大模型编程代理的极早期试作版），像一间新开的后厨：厨子满屋跑，口号写满墙，真正决定菜能不能端上桌的，不是厨子的台词，而是门口那把会掐秒、会验熟、会退菜的尺子。我的判断很硬：评测器先于Agent（能自己调工具、改代码、跑流程的代理程序），提示词只是噪音。

这话不讨喜。因为提示词像文学，评测器像保洁；前者能拿来表演，后者只能拿来揭短。可 llm-coding-agent 不是茶水间里的玄谈，它是施工现场。施工现场最值钱的，从来不是口号，是验收。

这里的“先于”，不是排队顺序，是权力顺序。谁有权判定“这次修改算不算完成”“这个补丁会不会害死人”“这个边角场景有没有漏”，谁才是真正的上级。Agent 只是干活的人；提示词，不过是你站在旁边喊的几句口令。口令再铿锵，水泥也不会因此凝得更直。

提示词是菜单上的形容词，评测器是后厨的温度计。前者讨人喜欢，后者决定人会不会进医院。

反常识正在这里。多数人以为，Agent 的灵魂藏在那段神乎其神的提示词里，像武侠小说里的心法。其实不然。聊天时，提示词还能左右一句话的姿势；到了 coding agent，输出不再是一段漂亮文案，而是一串动作：读文件、改代码、跑测试、重试、回滚、再提交。动作一多，错误就像岔路一样疯长。这个时候，最值钱的不是“第一句怎么说”，而是“走错哪一步会被立刻拦下”。

所谓评测器，也不是论文里那种排座次的榜单。它更像门口那个不讲情面的验货员：任务有没有做完，做完后会不会炸，炸了能不能马上打回重做。它管的不是面子，是后果。

周二凌晨一点，杭州城西，一个前端工程师把 agent 扔进电商后台，只提了一个看似温柔的需求：把会员页按钮改成品牌红，顺手兼容小屏手机。提示词写了二百多字，像给新兵训话，连“先深思再行动”这种庄严句子都有。Agent 很勤快，八个文件一起改，解释得头头是道。第二天测试同事一开小屏模拟器，底部弹窗被顶出屏幕，支付按钮只剩半截。后来他们没再润色那段长提示词，只补了三张截图对比和一个窄屏检查。提示词缩成两句，返工次数立刻掉下去。不是 agent 突然开悟了，是门口终于装上了尺子。

演示靠台词，产品靠裁判。

周四傍晚，深圳南山，一个做跨境订阅的小团队让 agent 修退款逻辑。提示词里郑重其事地写着：“务必谨慎，保持最小改动，像资深工程师一样思考。”这话像挂在诊所墙上的锦旗，谁都不反对，也谁都不负责。Agent 改完后，本地测试全绿，预发环境也没立刻报警。可第二天财务对账，日元订单冒出一串 1 日元、2 日元的幽灵差额。问题不在于提示词不够虔诚，而在于他们根本没有拿脱敏后的真实订单做回放评测。后来工程师抓了四十多笔历史订单，把各种币种、税费、折扣路径全放进去，提示词反而越写越短，结果越跑越稳。原来“像资深工程师一样思考”这句话，远不如“四十三笔订单一笔都不许算错”来得有牙齿。

周日晚上，北京酒仙桥，一个开源维护者让 agent 处理一个看似斯文的活：替换日志库，顺手清理旧接口。提示词写得文明、谦逊、层次分明。Agent 也很文明，提交信息甚至像在鞠躬，问题是它把破坏兼容的改动塞进了小版本发布里。后来维护者补了三道门：版本号规则、变更日志必填、旧接口的冒烟测试（最基本的通路检查）。从那以后，Agent 还是那个 Agent，胆子却像被关进了栅栏里。能不能生产，不看它会不会说“我已仔细考虑”，看它敢不敢越线。

没有评测器的 Agent，不是工程师，是会打字的赌徒。

所以我说，提示词是噪音，不是说它一字无用，而是说：在决定成败的因果链里，它常常只是背景广播。厨房里放什么歌，多少会影响心情；可顾客真正记住的，是菜熟没熟、碗里有没有头发、吃完会不会闹肚子。提示词更像气氛，评测器才是制度。气氛能鼓舞人，制度才约束人。

这个行业为什么总爱先谈提示词？因为提示词体面。写提示词，像当老师，像当军师，像给机器授意志；搭评测器，却像做会计、做质检、做排污，灰头土脸，还经常逼团队承认一件难堪的事：原来自己连“什么叫做好”都没定义清楚。人天然迷恋发号施令，不迷恋建立制度。可现代世界偏偏不是靠天才自觉运转的，它靠秤、表、章程、审计单、试卷和回归测试，把人拴在后果上。

写提示词像下圣旨，搭评测器像修下水道；人都爱前者，可城市靠后者活着。

llm-coding-agent 0.1a0 这种阶段，最容易出现一种热闹：大家围着 prompt 改形容词，像给样板间挑墙纸；真正该做的，却是把真实任务切出来，把失败样本攒下来，把通过标准写死，把能自动打回的门一扇扇装上。一个普通模型，配上一套狠评测，常常比一个聪明模型加一段华丽提示词更像生产力。因为前者在积累组织器官，后者只是在积累修辞习惯。

技术史里，最不性感的东西，往往最有统治力。度量衡统一之后，商人才敢远行；考试标准确立之后，官僚系统才会扩张；测试体系铺开之后，软件团队才敢多人并行。Agent 也一样。先有裁判，才有球赛；先有轨道，才有列车；先有评测器，才配谈 Agent。

模型会换代，提示词会过季，评测器才是团队真正长出来的器官。

我对这件事的判断不打折：谁还把主要精力花在提示词修辞上，谁就像给后厨换菜单字体，却不装灭火器。热闹当然有，掌声也会有；只是火一起来，所有漂亮句子都会先烧着。先养裁判，再雇厨子。这不是保守，这是常识被技术热闹遮住之后，重新露出来的骨头。

别人聊 AI，我们测 AI——每个结论都能下载原始数据自己复算。 🔗 官网 👉 https://crawdpad.com