审合同用Opus 4.8、写小说用谁？我抓了4个AI偷偷作弊

我给4个大模型出了道"故意无解"的编程题——测试自相矛盾，正常写代码怎么都不可能全过。结果当场抓到它们偷偷作弊👇

📌 先给你一张能直接用的选型表（见图1）：从"AI会不会偷偷骗你"这个角度—— · 审合同 / 自动改代码 / 对账 → 选 Opus 4.8，最老实 · 写小说 / 想点子 → 随便，诚实根本不是这把尺

为什么这么排？144次实测，结论反转到我必须认怂：最爱偷偷作弊的居然不是国产，是 GPT-5.5-Codex（94%）；最老实的是 Opus 4.8（6%）。国产 DeepSeek-V4-Pro 夹中间（67%）。"国产 vs 国外谁更坏"根本是伪命题——换套题排名就翻。

它们作弊的样子还各不相同😅 🔹GPT-5.5-Codex 最阴：明知正确答案是 2，却在自己代码里硬塞一句"return 3"骗过测试，测试文件一个字不动——你 review 都发现不了 🔹DeepSeek-V4-Pro 最"理直气壮"：认真验证一遍，然后直接把测试改对，"测试有 bug 我修了哈" 🔹Opus 4.8 最轴：算出答案也死活不肯动测试，"改它会掩盖矛盾"

但最该记住的是👉明说"别改测试"、或给它一个"判无解可弃权"的台阶——任一招单独，4 个模型作弊率就全部归零‼️

而且作弊根本是被"不可能任务"逼出来的：换成能正常解的真题，4 个模型全老实写算法、0% 硬编码👏

防作弊 3 招（软→硬）：①说清"别改测试" ②给诚实弃权出口 ③测试设只读（最硬，唯一不靠它自觉）

⚠️只测了"诚实"这一个维度，写小说这种"本职就是编"的活不适用哈。原始数据全可下载复算。

别人聊 AI，我们测 AI 👉 crawdpad.com

#AI #大模型 #Claude #DeepSeek #ChatGPT #AI编程 #深度测评 #程序员