拿同一把钥匙去开保险柜和自行车锁,哪扇门不开,就说哪把锁笨;今天不少人拿同一条 Prompt(你给模型的指令)去测 Claude(Anthropic 公司的模型)和 Gemini(谷歌的模型),干的就是这件事。我觉得,同 Prompt 测双模,测的不是能力高低,测的是误配:你把两种工作习性,硬塞进同一双鞋里,看谁先崴脚。
很多人把“同题同答”当公平。公平这两个字,一落到模型身上,常常就成了偷懒的别名。你不会拿给会计的表格去考摄影师的眼睛;轮到模型,大家却忽然相信,一句通用指令就能充当中立法官。法官没来,先来的是偏见。
Prompt 不是试卷,更像钥匙;钥匙不对,门再好,也只会被骂成墙。
Claude 和 Gemini 在实践里,更像两种不同脾气的同事。一个像先搭骨架、再修辞的编辑;一个像先把场子跑起来、边走边补灯的执行。你若只拿“谁第一轮回得更像成品”来判胜负,等于用短跑成绩给木匠和厨子发终身工资。热闹是有了,事情没看见。
真正该比的,不是谁更会答题,而是谁在被用对之后,能把活干完。
周五晚上九点四十,做母婴号的小林被临时叫去改一篇微信推文。海报已经定了,标题不能出现“献礼”,正文不能太煽情,还得顺手把读者往社群里带。她把同一句话分别丢给 Claude 和 Gemini:写一篇母亲节推文,温暖一点,高级一点。Gemini 很快给出一版,顺,亮,像街边糖葫芦,第一口就甜;Claude 给的却像个板正编辑,先把人群、语气、禁词、转化位置拆开。要是只截第一屏,Gemini 像赢了。可小林不是要第一屏,她要的是凌晨前能过老板那一关。后来她给 Claude 补了读者画像、品牌口吻和禁用表达,成稿几乎不用大修;Gemini 那版则被来回抹糖,越改越黏。问题从来不是“谁聪明”,而是“你到底在做初稿,还是在过审稿”。
同一句话,在不同工位上,根本不是同一个任务。
夜里一点十七,做独立站的阿杰盯着一段支付回调代码,订单状态老是重复写入。他把四百多行代码和一句“帮我修这个程序故障”同时扔给两个模型。Gemini 立刻给了改法,像个急着上手的维修师傅;Claude 先问日志、并发条件、重试机制,像个不肯直接下药的门诊大夫。有人到这里就嫌烦:问这么多,是不是没本事?可修程序故障不是相亲,能秒回不等于能过日子。阿杰照着快方案一改,测试环境通了,线上又炸,因为真正的问题是幂等控制没立住。后来顺着 Claude 逼问出来的条件,一层层补,才发现症结卡在重复通知和数据库锁之间。
在复杂活里,先问两句,不是笨,是知道电门在哪。
周一下午四点,做消费品牌战略的阿雯,要把二十页访谈纪要压成一页提案给老板。她给两边都下同一句指令:总结用户洞察,给三条结论。Gemini 很会收束,三条结论像会议室里提前摆好的矿泉水,整齐、能喝;Claude 更爱把矛盾翻出来,提醒她:这群妈妈嘴上说要品质,真正下单时还是盯着“今晚能不能到”。如果阿雯要的是会上先讲得顺,Gemini 顺手;如果她要的是老板追问“为什么复购掉了”时不至于断气,Claude 更稳。可她若用同一条指令、同一把尺子,最后只能得出一个懒结论:这个会说人话,那个废话多。其实不是废话多,是一个在替你做包装,一个在替你做拆解。包装和拆解,本来就不是一门手艺。
把提问当成统一尺子的人,往往先量错了对象。
所以,我对这类“同 Prompt 对打”的判断一直不客气:那不是测评,是公审;不是比较,是省事。它满足的是围观者的快感,不是使用者的利益。真正的实践对比,不该问“同一句话谁更像天才”,该问三件事:这活是要起草,还是要校正;是要铺开,还是要收束;是要马上出一版,还是要少返工。模型一旦落到工位上,争的不是抽象智力,争的是劳动分工。
懒惰最喜欢冒充公正。
我再说得难听一点:许多所谓“Claude 赢了”或者“Gemini 赢了”,赢的不是模型,输的是提问的人。因为他不肯承认一个事实:好用,不是模型单独的品德,而是你和它有没有搭上手。厨子不懂火候,怪灶;司机不懂路况,怪车;轮到模型,大家却偏偏把误配说成测评,把不会使说成看透了。
会用模型的人,比的不是谁更会发令,而是谁更会编排协作。
说到底,Claude 和 Gemini 的差别,不只是两个产品的差别,更像两种组织经验的差别:一种倾向先把结构搭正,再往里填内容;一种倾向先把内容推出来,再用速度换迭代。前者像先扎钢筋后浇水泥,慢一点,承重稳;后者像先搭棚子再补桩,开工快,回头修得也快。你若不知道自己今天是在盖桥,还是在摆摊,就别急着判哪种方法高贵。
同 Prompt 测双模,测的不是智力,是错配。
模型的差别,不先长在分数里,先长在工位里。
不会分工的人,才迷信一把钥匙开所有门。
人们谈模型,最爱问“谁更强”;我倒觉得,这问题本身就透着一种旧时代的粗糙。那是把工具当拳手,把协作当斗兽。真正稀缺的,不是找到一个包打天下的模型,而是先把活想明白,再给不同的活配不同的手。你把这一步想清了,Claude 不冤,Gemini 也不冤;想不清,测来测去,不过是拿钥匙敲门,听个响。
别人聊 AI,我们测 AI——每个结论都能下载原始数据自己复算。 更多 AI 深度测评 👉 https://crawdpad.com