我看 llm-coding-agent 0.1a0(大模型编程代理的极早期试作版),像一间新开的后厨:厨子满屋跑,口号写满墙,真正决定菜能不能端上桌的,不是厨子的台词,而是门口那把会掐秒、会验熟、会退菜的尺子。我的判断很硬:评测器先于Agent(能自己调工具、改代码、跑流程的代理程序),提示词只是噪音。
这话不讨喜。因为提示词像文学,评测器像保洁;前者能拿来表演,后者只能拿来揭短。可 llm-coding-agent 不是茶水间里的玄谈,它是施工现场。施工现场最值钱的,从来不是口号,是验收。
这里的“先于”,不是排队顺序,是权力顺序。谁有权判定“这次修改算不算完成”“这个补丁会不会害死人”“这个边角场景有没有漏”,谁才是真正的上级。Agent 只是干活的人;提示词,不过是你站在旁边喊的几句口令。口令再铿锵,水泥也不会因此凝得更直。
提示词是菜单上的形容词,评测器是后厨的温度计。前者讨人喜欢,后者决定人会不会进医院。
反常识正在这里。多数人以为,Agent 的灵魂藏在那段神乎其神的提示词里,像武侠小说里的心法。其实不然。聊天时,提示词还能左右一句话的姿势;到了 coding agent,输出不再是一段漂亮文案,而是一串动作:读文件、改代码、跑测试、重试、回滚、再提交。动作一多,错误就像岔路一样疯长。这个时候,最值钱的不是“第一句怎么说”,而是“走错哪一步会被立刻拦下”。
所谓评测器,也不是论文里那种排座次的榜单。它更像门口那个不讲情面的验货员:任务有没有做完,做完后会不会炸,炸了能不能马上打回重做。它管的不是面子,是后果。
周二凌晨一点,杭州城西,一个前端工程师把 agent 扔进电商后台,只提了一个看似温柔的需求:把会员页按钮改成品牌红,顺手兼容小屏手机。提示词写了二百多字,像给新兵训话,连“先深思再行动”这种庄严句子都有。Agent 很勤快,八个文件一起改,解释得头头是道。第二天测试同事一开小屏模拟器,底部弹窗被顶出屏幕,支付按钮只剩半截。后来他们没再润色那段长提示词,只补了三张截图对比和一个窄屏检查。提示词缩成两句,返工次数立刻掉下去。不是 agent 突然开悟了,是门口终于装上了尺子。
演示靠台词,产品靠裁判。
周四傍晚,深圳南山,一个做跨境订阅的小团队让 agent 修退款逻辑。提示词里郑重其事地写着:“务必谨慎,保持最小改动,像资深工程师一样思考。”这话像挂在诊所墙上的锦旗,谁都不反对,也谁都不负责。Agent 改完后,本地测试全绿,预发环境也没立刻报警。可第二天财务对账,日元订单冒出一串 1 日元、2 日元的幽灵差额。问题不在于提示词不够虔诚,而在于他们根本没有拿脱敏后的真实订单做回放评测。后来工程师抓了四十多笔历史订单,把各种币种、税费、折扣路径全放进去,提示词反而越写越短,结果越跑越稳。原来“像资深工程师一样思考”这句话,远不如“四十三笔订单一笔都不许算错”来得有牙齿。
周日晚上,北京酒仙桥,一个开源维护者让 agent 处理一个看似斯文的活:替换日志库,顺手清理旧接口。提示词写得文明、谦逊、层次分明。Agent 也很文明,提交信息甚至像在鞠躬,问题是它把破坏兼容的改动塞进了小版本发布里。后来维护者补了三道门:版本号规则、变更日志必填、旧接口的冒烟测试(最基本的通路检查)。从那以后,Agent 还是那个 Agent,胆子却像被关进了栅栏里。能不能生产,不看它会不会说“我已仔细考虑”,看它敢不敢越线。
没有评测器的 Agent,不是工程师,是会打字的赌徒。
所以我说,提示词是噪音,不是说它一字无用,而是说:在决定成败的因果链里,它常常只是背景广播。厨房里放什么歌,多少会影响心情;可顾客真正记住的,是菜熟没熟、碗里有没有头发、吃完会不会闹肚子。提示词更像气氛,评测器才是制度。气氛能鼓舞人,制度才约束人。
这个行业为什么总爱先谈提示词?因为提示词体面。写提示词,像当老师,像当军师,像给机器授意志;搭评测器,却像做会计、做质检、做排污,灰头土脸,还经常逼团队承认一件难堪的事:原来自己连“什么叫做好”都没定义清楚。人天然迷恋发号施令,不迷恋建立制度。可现代世界偏偏不是靠天才自觉运转的,它靠秤、表、章程、审计单、试卷和回归测试,把人拴在后果上。
写提示词像下圣旨,搭评测器像修下水道;人都爱前者,可城市靠后者活着。
llm-coding-agent 0.1a0 这种阶段,最容易出现一种热闹:大家围着 prompt 改形容词,像给样板间挑墙纸;真正该做的,却是把真实任务切出来,把失败样本攒下来,把通过标准写死,把能自动打回的门一扇扇装上。一个普通模型,配上一套狠评测,常常比一个聪明模型加一段华丽提示词更像生产力。因为前者在积累组织器官,后者只是在积累修辞习惯。
技术史里,最不性感的东西,往往最有统治力。度量衡统一之后,商人才敢远行;考试标准确立之后,官僚系统才会扩张;测试体系铺开之后,软件团队才敢多人并行。Agent 也一样。先有裁判,才有球赛;先有轨道,才有列车;先有评测器,才配谈 Agent。
模型会换代,提示词会过季,评测器才是团队真正长出来的器官。
我对这件事的判断不打折:谁还把主要精力花在提示词修辞上,谁就像给后厨换菜单字体,却不装灭火器。热闹当然有,掌声也会有;只是火一起来,所有漂亮句子都会先烧着。先养裁判,再雇厨子。这不是保守,这是常识被技术热闹遮住之后,重新露出来的骨头。
别人聊 AI,我们测 AI——每个结论都能下载原始数据自己复算。 🔗 官网 👉 https://crawdpad.com