⚠️ 已经会用 GPT、Claude 聊天,最近开始想把几个 AI 工具串起来省事的人,最容易踩的坑,是把 Codex 当成同一种工具,以为谁分高谁就适合自己。你一会儿在浏览器搜资料,一会儿回聊天框补背景,一会儿再回编辑器改几行代码;这样用,省掉的只是几次改提示词,赔掉的常常是一整轮返工。AI 工具真正开始抢的,不只是代码活,而是你来回切换的那些碎时间。
OpenAI 那篇《Building self-improving tax agents with Codex》[C001] 真正值钱的,不是模型自己突然开悟。这套税务智能体最值钱的,不是最后 86% 的数字,而是它怎么涨上去:自进化不是调Prompt,是把改单写成eval。[C002] 这里的 eval,可以先理解成下次必须再过一遍的评测关卡。
原文给了两个硬点。第一,它处理了 7,000 份报税表,75% 正确字段完成率从上线时约 25%,拉到 6 周后的 86%。第二,重复出现的会计改错,会被先分组,再变成下一轮要过的评测目标。[C003]
官方配套示例把这条迭代链路也写得很直白:真实运行记录 -> 人工或模型反馈 -> 生成评测 -> 再交给 Codex 去改。[C004] 这已经不是普通聊天框逻辑了。很多人以为自己缺的是更强模型,其实缺的是少切几个窗口。
所以这篇更像在提醒一种筛选方法:你想知道的不是哪个工具更极客,而是它能不能把资料整理、改错复盘、批量迭代接起来,少掉来回复制背景那一步。
边界也得记住:这最多说明一种可行做法,还不能外推到所有智能体场景。原文的前提也很明确,不是每次人工改单都能直接喂回去,得先过滤工作流程里的噪音和判断分歧,不然系统会被带偏。把这篇先 save。
🤔 你现在最想先避开的,是哪一个坑?