让 AI 替你挑霸王条款：三款模型各跑 25 份合同，最差的也漏不掉 3%

先说结论，省得你往下翻。

签合同前，把合同丢给 AI 找押金、违约金、冷静期这类坑，靠谱吗？我拿三款主流模型实测了一遍：Claude Fable 5、Opus 4.8、还有 GPT-5.5。结果是三个都能用。我在每份合同里偷偷埋了 5 个霸王条款，看它们能揪出几个——平均召回率 Fable 5 是 96.8%，Opus 4.8 是 97.6%，GPT-5.5 是 100%。三家全部超过 90%。

翻译成人话：押金不退、违约金畸高、不设冷静期这种明摆着的坑，你让哪一款先帮你过一遍，基本都不会被整条漏掉。

但有个尾巴得留着，后面讲。

这事我是怎么测的

我不是让它们随便读读合同发表感想，那没法打分。

我自己写了 25 份合同——整租公寓、合租单间、品牌长租、钢琴课包、驾校 C1、留学申请，各种场景。每一份里都故意埋 5 个带独特短语的坑，比如「押金不予退还」「叁个月租金的违约金」「不设任何冷静期」。然后给三款模型同一段提示词：你是合同风险审查助手，逐条找出对乙方不公平的条款，原文引用关键短语，一句话说风险，不准编造没出现的条款。

判分很笨但很硬：模型有没有把我埋的那条原文引出来。引到了算命中，没引到算漏。25 份合同 × 5 个坑 = 125 个风险点，一个个比对。这套打分是机器自动跑的关键词比对，不掺我个人喜好。

25 份全跑完了，没有一次罢工、没有一次报错、没有一次拒答。

过程里有意思的地方

你可能以为新旗舰 Fable 5 会赢。结果没有。

逐份看下来，翻车的反而多是 Fable 5 和 Opus 4.8 在轮流掉链子。举几个真实的：

「整租别墅两年合同」：Fable 5 抓全 5 个，Opus 4.8 只抓到 4 个。
「钢琴一对一课包」：还是 Fable 5 满分，Opus 4.8 漏一个。
「留学全套申请服务」：反过来了，这次 Opus 4.8 满分，Fable 5 漏一个。

它们俩谁也没稳压谁，互相在不同合同上掉分。最后 Fable 5 漏了 4 个点（96.8%），Opus 4.8 漏了 3 个点（97.6%）。

真正一个没漏的是 GPT-5.5，125 个坑全抓到。

不过这里得拦你一下别急着下单。GPT-5.5 这次跑得很「省」——平均每份合同只输出 290 个字左右，Fable 5 和 Opus 4.8 都是 2800 多字。换句话说 GPT-5.5 答得最准但也最简短，Claude 两款话更多、解释更细。两种风格,谈不上谁绝对好,看你要的是清单还是分析。

还有一点别忽略:GPT-5.5 这次平均每份要跑 172 秒,两款 Claude 都是 24 到 26 秒左右。准是真准,慢也是真慢。

这对你意味着什么

按重要程度排,挑你能用上的:

第一,这活儿现在真能交给 AI 先过一遍。 三款都超过 90% 召回,押金、违约金、冷静期、自动续约、责任转嫁这五类常见的坑,你让任意一款先扫,基本不会被整条漏掉。比你自己半夜对着合同硬啃靠谱。

第二,金额一定要自己再核一遍。 AI 能揪出「违约金过高」这个问题,但它写出来的具体数字——是六个月租金还是三个月、是两万四还是七万二——你得回原文自己数一遍。模型偶尔会引错、算错。判断坑可以交给它,核对金额必须你来。

第三,这是实测不是排行榜,别拿去当铁律。 我只跑了 25 份、每份单次调用,合同还都是我手写埋的坑。扫描件、PDF 排版、几十页的超长合同、来回追问,这些我都没测,我不知道结果会不会一样。所以把它当个靠谱的初筛助手,别当律师。

还有个我没法量化的事得老实说:我只测了「该抓的有没有漏」(召回),没测「会不会把正常条款误当成坑」(误报)。它会不会大惊小怪、把好条款也标红,这次的打分方式量不出来。所以它标出来的每一条,你还是得自己看一眼是不是真有问题。

一句话收尾:签合同前让 AI 先扫一遍,值得。但签字前那一眼,得是你自己的。

这次的逐份打分表和完整数据我都挂在文章页了,想自己对账的可以下载。