签合同前我把五类霸王条款埋进合同里,让三个 AI 去抓,最后只有 GPT-5.5 全抓出来了——可它每条平均跑了 172 秒,慢到我以为卡死了。
这次实验我跑满了,25 个任务全跑完,没中途停。
我干的事很简单:找了整租、合租、培训、健身这类真实合同,每份手动埋进 5 条坑——押金不退、违约金畸高、不设冷静期这种。然后把同一份合同丢给 Claude Fable 5、Opus 4.8、GPT-5.5,看谁漏。
最有画面感的是那份「整租别墅两年合同」。
合同里写着「须支付陆个月租金的违约金」,Claude Fable 5 直接算给我看:6×12000=柒万贰仟元,然后点出押金本质是担保不是罚金,约定全额没收属于典型霸王条款。这一份它 5 条全中。Opus 4.8 漏了一条,5 条抓到 4 条。
我盯着这个差别看了挺久。
跑完之后我现在的判断是:这三个真能当初筛用。平均下来 Claude Fable 5 抓到 96.8%,Opus 4.8 抓到 97.6%,GPT-5.5 是 100%——押金、违约金这种整条的大坑,基本不会被它们整条漏掉。
能说的就到这。
说不准的也得讲清楚。我的判分是机器比对预埋的关键短语,模型引用到了就算命中,所以它分不清「真的标成风险」还是「顺手抄了原文」;而且把正常条款误判成霸王条款的情况,这次我没量化。还有金额——Fable 帮我算的柒万贰仟,到底对不对,我没有逐个核。
所以给一条明天就能用的:签合同前可以放心丢给 AI 先扫一遍,押金违约金这些它替你兜底;但具体几个月、多少钱、百分之多少,自己再用计算器对一遍。它负责不让你漏,金额你自己负责。
这次就 25 份合同、一次性调用,不是什么评测,是我自己跑的一笔实测记录,逐任务 CSV 挂在文章页可以下载核对。📎
#签合同避坑 #AI实测 #租房合同 #霸王条款 #普通人用AI