6周从25到86，最值钱的不是准确率

⚠️ 已经会用 GPT、Claude 聊天，最近开始想把几个 AI 工具串起来省事的人，最容易踩的坑，是把 Codex 当成同一种工具，以为谁分高谁就适合自己。你一会儿在浏览器搜资料，一会儿回聊天框补背景，一会儿再回编辑器改几行代码；这样用，省掉的只是几次改提示词，赔掉的常常是一整轮返工。AI 工具真正开始抢的，不只是代码活，而是你来回切换的那些碎时间。

OpenAI 那篇《Building self-improving tax agents with Codex》[C001] 真正值钱的，不是模型自己突然开悟。这套税务智能体最值钱的，不是最后 86% 的数字，而是它怎么涨上去：自进化不是调Prompt，是把改单写成eval。[C002] 这里的 eval，可以先理解成下次必须再过一遍的评测关卡。

原文给了两个硬点。第一，它处理了 7,000 份报税表，75% 正确字段完成率从上线时约 25%，拉到 6 周后的 86%。第二，重复出现的会计改错，会被先分组，再变成下一轮要过的评测目标。[C003]

官方配套示例把这条迭代链路也写得很直白：真实运行记录 -> 人工或模型反馈 -> 生成评测 -> 再交给 Codex 去改。[C004] 这已经不是普通聊天框逻辑了。很多人以为自己缺的是更强模型，其实缺的是少切几个窗口。

所以这篇更像在提醒一种筛选方法：你想知道的不是哪个工具更极客，而是它能不能把资料整理、改错复盘、批量迭代接起来，少掉来回复制背景那一步。

边界也得记住：这最多说明一种可行做法，还不能外推到所有智能体场景。原文的前提也很明确，不是每次人工改单都能直接喂回去，得先过滤工作流程里的噪音和判断分歧，不然系统会被带偏。把这篇先 save。

🤔 你现在最想先避开的，是哪一个坑？