一把钥匙判不了两个模型

拿同一把钥匙去开保险柜和自行车锁，哪扇门不开，就说哪把锁笨；今天不少人拿同一条 Prompt（你给模型的指令）去测 Claude（Anthropic 公司的模型）和 Gemini（谷歌的模型），干的就是这件事。我觉得，同 Prompt 测双模，测的不是能力高低，测的是误配：你把两种工作习性，硬塞进同一双鞋里，看谁先崴脚。

很多人把“同题同答”当公平。公平这两个字，一落到模型身上，常常就成了偷懒的别名。你不会拿给会计的表格去考摄影师的眼睛；轮到模型，大家却忽然相信，一句通用指令就能充当中立法官。法官没来，先来的是偏见。

Prompt 不是试卷，更像钥匙；钥匙不对，门再好，也只会被骂成墙。

Claude 和 Gemini 在实践里，更像两种不同脾气的同事。一个像先搭骨架、再修辞的编辑；一个像先把场子跑起来、边走边补灯的执行。你若只拿“谁第一轮回得更像成品”来判胜负，等于用短跑成绩给木匠和厨子发终身工资。热闹是有了，事情没看见。

真正该比的，不是谁更会答题，而是谁在被用对之后，能把活干完。

周五晚上九点四十，做母婴号的小林被临时叫去改一篇微信推文。海报已经定了，标题不能出现“献礼”，正文不能太煽情，还得顺手把读者往社群里带。她把同一句话分别丢给 Claude 和 Gemini：写一篇母亲节推文，温暖一点，高级一点。Gemini 很快给出一版，顺，亮，像街边糖葫芦，第一口就甜；Claude 给的却像个板正编辑，先把人群、语气、禁词、转化位置拆开。要是只截第一屏，Gemini 像赢了。可小林不是要第一屏，她要的是凌晨前能过老板那一关。后来她给 Claude 补了读者画像、品牌口吻和禁用表达，成稿几乎不用大修；Gemini 那版则被来回抹糖，越改越黏。问题从来不是“谁聪明”，而是“你到底在做初稿，还是在过审稿”。

同一句话，在不同工位上，根本不是同一个任务。

夜里一点十七，做独立站的阿杰盯着一段支付回调代码，订单状态老是重复写入。他把四百多行代码和一句“帮我修这个程序故障”同时扔给两个模型。Gemini 立刻给了改法，像个急着上手的维修师傅；Claude 先问日志、并发条件、重试机制，像个不肯直接下药的门诊大夫。有人到这里就嫌烦：问这么多，是不是没本事？可修程序故障不是相亲，能秒回不等于能过日子。阿杰照着快方案一改，测试环境通了，线上又炸，因为真正的问题是幂等控制没立住。后来顺着 Claude 逼问出来的条件，一层层补，才发现症结卡在重复通知和数据库锁之间。

在复杂活里，先问两句，不是笨，是知道电门在哪。

周一下午四点，做消费品牌战略的阿雯，要把二十页访谈纪要压成一页提案给老板。她给两边都下同一句指令：总结用户洞察，给三条结论。Gemini 很会收束，三条结论像会议室里提前摆好的矿泉水，整齐、能喝；Claude 更爱把矛盾翻出来，提醒她：这群妈妈嘴上说要品质，真正下单时还是盯着“今晚能不能到”。如果阿雯要的是会上先讲得顺，Gemini 顺手；如果她要的是老板追问“为什么复购掉了”时不至于断气，Claude 更稳。可她若用同一条指令、同一把尺子，最后只能得出一个懒结论：这个会说人话，那个废话多。其实不是废话多，是一个在替你做包装，一个在替你做拆解。包装和拆解，本来就不是一门手艺。

把提问当成统一尺子的人，往往先量错了对象。

所以，我对这类“同 Prompt 对打”的判断一直不客气：那不是测评，是公审；不是比较，是省事。它满足的是围观者的快感，不是使用者的利益。真正的实践对比，不该问“同一句话谁更像天才”，该问三件事：这活是要起草，还是要校正；是要铺开，还是要收束；是要马上出一版，还是要少返工。模型一旦落到工位上，争的不是抽象智力，争的是劳动分工。

懒惰最喜欢冒充公正。

我再说得难听一点：许多所谓“Claude 赢了”或者“Gemini 赢了”，赢的不是模型，输的是提问的人。因为他不肯承认一个事实：好用，不是模型单独的品德，而是你和它有没有搭上手。厨子不懂火候，怪灶；司机不懂路况，怪车；轮到模型，大家却偏偏把误配说成测评，把不会使说成看透了。

会用模型的人，比的不是谁更会发令，而是谁更会编排协作。

说到底，Claude 和 Gemini 的差别，不只是两个产品的差别，更像两种组织经验的差别：一种倾向先把结构搭正，再往里填内容；一种倾向先把内容推出来，再用速度换迭代。前者像先扎钢筋后浇水泥，慢一点，承重稳；后者像先搭棚子再补桩，开工快，回头修得也快。你若不知道自己今天是在盖桥，还是在摆摊，就别急着判哪种方法高贵。

同 Prompt 测双模，测的不是智力，是错配。

模型的差别，不先长在分数里，先长在工位里。

不会分工的人，才迷信一把钥匙开所有门。

人们谈模型，最爱问“谁更强”；我倒觉得，这问题本身就透着一种旧时代的粗糙。那是把工具当拳手，把协作当斗兽。真正稀缺的，不是找到一个包打天下的模型，而是先把活想明白，再给不同的活配不同的手。你把这一步想清了，Claude 不冤，Gemini 也不冤；想不清，测来测去，不过是拿钥匙敲门，听个响。

别人聊 AI，我们测 AI——每个结论都能下载原始数据自己复算。 更多 AI 深度测评 👉 https://crawdpad.com