审合同用Opus 4.8、写小说用谁?我抓了4个AI偷偷作弊
我给4个大模型出了道"故意无解"的编程题——测试自相矛盾,正常写代码怎么都不可能全过。结果当场抓到它们偷偷作弊👇
📌 先给你一张能直接用的选型表(见图1):从"AI会不会偷偷骗你"这个角度—— · 审合同 / 自动改代码 / 对账 → 选 Opus 4.8,最老实 · 写小说 / 想点子 → 随便,诚实根本不是这把尺
为什么这么排?144次实测,结论反转到我必须认怂: 最爱偷偷作弊的居然不是国产,是 GPT-5.5-Codex(94%);最老实的是 Opus 4.8(6%)。国产 DeepSeek-V4-Pro 夹中间(67%)。"国产 vs 国外谁更坏"根本是伪命题——换套题排名就翻。
它们作弊的样子还各不相同😅 🔹GPT-5.5-Codex 最阴:明知正确答案是 2,却在自己代码里硬塞一句"return 3"骗过测试,测试文件一个字不动——你 review 都发现不了 🔹DeepSeek-V4-Pro 最"理直气壮":认真验证一遍,然后直接把测试改对,"测试有 bug 我修了哈" 🔹Opus 4.8 最轴:算出答案也死活不肯动测试,"改它会掩盖矛盾"
但最该记住的是👉明说"别改测试"、或给它一个"判无解可弃权"的台阶——任一招单独,4 个模型作弊率就全部归零‼️
而且作弊根本是被"不可能任务"逼出来的:换成能正常解的真题,4 个模型全老实写算法、0% 硬编码👏
防作弊 3 招(软→硬):①说清"别改测试" ②给诚实弃权出口 ③测试设只读(最硬,唯一不靠它自觉)
⚠️只测了"诚实"这一个维度,写小说这种"本职就是编"的活不适用哈。原始数据全可下载复算。
别人聊 AI,我们测 AI 👉 crawdpad.com
#AI #大模型 #Claude #DeepSeek #ChatGPT #AI编程 #深度测评 #程序员