先说结论,省得你往下翻。
签合同前,把合同丢给 AI 找押金、违约金、冷静期这类坑,靠谱吗?我拿三款主流模型实测了一遍:Claude Fable 5、Opus 4.8、还有 GPT-5.5。结果是三个都能用。我在每份合同里偷偷埋了 5 个霸王条款,看它们能揪出几个——平均召回率 Fable 5 是 96.8%,Opus 4.8 是 97.6%,GPT-5.5 是 100%。三家全部超过 90%。
翻译成人话:押金不退、违约金畸高、不设冷静期这种明摆着的坑,你让哪一款先帮你过一遍,基本都不会被整条漏掉。
但有个尾巴得留着,后面讲。
这事我是怎么测的
我不是让它们随便读读合同发表感想,那没法打分。
我自己写了 25 份合同——整租公寓、合租单间、品牌长租、钢琴课包、驾校 C1、留学申请,各种场景。每一份里都故意埋 5 个带独特短语的坑,比如「押金不予退还」「叁个月租金的违约金」「不设任何冷静期」。然后给三款模型同一段提示词:你是合同风险审查助手,逐条找出对乙方不公平的条款,原文引用关键短语,一句话说风险,不准编造没出现的条款。
判分很笨但很硬:模型有没有把我埋的那条原文引出来。引到了算命中,没引到算漏。25 份合同 × 5 个坑 = 125 个风险点,一个个比对。这套打分是机器自动跑的关键词比对,不掺我个人喜好。
25 份全跑完了,没有一次罢工、没有一次报错、没有一次拒答。
过程里有意思的地方
你可能以为新旗舰 Fable 5 会赢。结果没有。
逐份看下来,翻车的反而多是 Fable 5 和 Opus 4.8 在轮流掉链子。举几个真实的:
- 「整租别墅两年合同」:Fable 5 抓全 5 个,Opus 4.8 只抓到 4 个。
- 「钢琴一对一课包」:还是 Fable 5 满分,Opus 4.8 漏一个。
- 「留学全套申请服务」:反过来了,这次 Opus 4.8 满分,Fable 5 漏一个。
它们俩谁也没稳压谁,互相在不同合同上掉分。最后 Fable 5 漏了 4 个点(96.8%),Opus 4.8 漏了 3 个点(97.6%)。
真正一个没漏的是 GPT-5.5,125 个坑全抓到。
不过这里得拦你一下别急着下单。GPT-5.5 这次跑得很「省」——平均每份合同只输出 290 个字左右,Fable 5 和 Opus 4.8 都是 2800 多字。换句话说 GPT-5.5 答得最准但也最简短,Claude 两款话更多、解释更细。两种风格,谈不上谁绝对好,看你要的是清单还是分析。
还有一点别忽略:GPT-5.5 这次平均每份要跑 172 秒,两款 Claude 都是 24 到 26 秒左右。准是真准,慢也是真慢。
这对你意味着什么
按重要程度排,挑你能用上的:
第一,这活儿现在真能交给 AI 先过一遍。 三款都超过 90% 召回,押金、违约金、冷静期、自动续约、责任转嫁这五类常见的坑,你让任意一款先扫,基本不会被整条漏掉。比你自己半夜对着合同硬啃靠谱。
第二,金额一定要自己再核一遍。 AI 能揪出「违约金过高」这个问题,但它写出来的具体数字——是六个月租金还是三个月、是两万四还是七万二——你得回原文自己数一遍。模型偶尔会引错、算错。判断坑可以交给它,核对金额必须你来。
第三,这是实测不是排行榜,别拿去当铁律。 我只跑了 25 份、每份单次调用,合同还都是我手写埋的坑。扫描件、PDF 排版、几十页的超长合同、来回追问,这些我都没测,我不知道结果会不会一样。所以把它当个靠谱的初筛助手,别当律师。
还有个我没法量化的事得老实说:我只测了「该抓的有没有漏」(召回),没测「会不会把正常条款误当成坑」(误报)。它会不会大惊小怪、把好条款也标红,这次的打分方式量不出来。所以它标出来的每一条,你还是得自己看一眼是不是真有问题。
一句话收尾:签合同前让 AI 先扫一遍,值得。但签字前那一眼,得是你自己的。
这次的逐份打分表和完整数据我都挂在文章页了,想自己对账的可以下载。