过去半年最大升级：不是更聪明，是给模型装手脚

⚠️ 你如果平时只会用聊天型大模型写文案、问问题，最近又总刷到“五分钟看完半年变化”这种内容，最容易做错的不是没跟上，而是先按错题。你刚刷到一条总结，本来想划走，又怕漏掉会影响下一步判断的那一点；一旦看偏，后面花错的就是时间、预算和注意力。这半年最重要的不是更聪明，是更能动手。[C002]

我后来反而更确定：过去半年最大升级，不是模型更会聊，而是开始被“装手脚”。那种《The last six months in LLMs in five minutes》式的速览，真正该盯的不是谁答得更漂亮，而是谁开始能把一段事做下去。[C001]

把这个判断钉住的，其实就两条。OpenAI 在 2026-03-11 把命令行工具 shell 和托管容器工作区并入 Responses 接口（Responses API）；前者是能直接跑命令，后者像给模型一个隔离小工位，方向已经从“会回答”转向“能代做事”。[C003] Anthropic 在 2026-01-12 也把 Claude Code 的 agent 能力放进本地隔离 VM 这种单独环境，可直接访问本地文件，还能接外部工具。[C005]

所以我现在看一条更新，先不看它多会说，先看它能不能接工具、能不能进隔离环境、能不能把一段工作流程做完。一条更新值不值得看，不看它列了多少功能，先看它会不会改掉你下一步的判断。

但这里也最容易上头：能动手，不等于可以放着不管。权限边界、回退方式、最后人工验收没想清楚，前面省 10 分钟，后面很可能赔 2 小时。

如果你现在还主要拿聊天型大模型写文案、做总结，这篇先收藏就够了，不用急着换工具；等你下一步真想让它替你搜资料、改文档、跑重复流程时，再回来看这三个判断。

🤔 你现在最想先避开的，是哪一个坑？