⚠️ 你如果平时只会用聊天型大模型写文案、问问题,最近又总刷到“五分钟看完半年变化”这种内容,最容易做错的不是没跟上,而是先按错题。你刚刷到一条总结,本来想划走,又怕漏掉会影响下一步判断的那一点;一旦看偏,后面花错的就是时间、预算和注意力。这半年最重要的不是更聪明,是更能动手。[C002]
我后来反而更确定:过去半年最大升级,不是模型更会聊,而是开始被“装手脚”。那种《The last six months in LLMs in five minutes》式的速览,真正该盯的不是谁答得更漂亮,而是谁开始能把一段事做下去。[C001]
把这个判断钉住的,其实就两条。OpenAI 在 2026-03-11 把命令行工具 shell 和托管容器工作区并入 Responses 接口(Responses API);前者是能直接跑命令,后者像给模型一个隔离小工位,方向已经从“会回答”转向“能代做事”。[C003] Anthropic 在 2026-01-12 也把 Claude Code 的 agent 能力放进本地隔离 VM 这种单独环境,可直接访问本地文件,还能接外部工具。[C005]
所以我现在看一条更新,先不看它多会说,先看它能不能接工具、能不能进隔离环境、能不能把一段工作流程做完。一条更新值不值得看,不看它列了多少功能,先看它会不会改掉你下一步的判断。
但这里也最容易上头:能动手,不等于可以放着不管。权限边界、回退方式、最后人工验收没想清楚,前面省 10 分钟,后面很可能赔 2 小时。
如果你现在还主要拿聊天型大模型写文案、做总结,这篇先收藏就够了,不用急着换工具;等你下一步真想让它替你搜资料、改文档、跑重复流程时,再回来看这三个判断。
🤔 你现在最想先避开的,是哪一个坑?