只会用聊天型大模型、最近开始想跟进新工具的人,最容易做错的一步,不是看得不够多,而是看完一堆更新,还是不知道这件事跟自己有没有关系、现在要不要跟。你刚刷到一条大模型新闻,手都准备划走了,又怕自己下一步已经慢了半拍。
如果只能用一句话概括 The last six months in LLMs in five minutes,我会把判断压到这一句:这半年最重要的不是更聪明,是更能动手。过去半年最大升级,不是聊天框里答案更漂亮,而是模型开始被做成能替你查资料、进虚拟机、跑命令的工具。
只看公开产品更新,这个方向已经很清楚。2025-12-11,Google 发布 Interactions API 和 Gemini Deep Research Agent,也就是让模型自己规划、执行、整理研究步骤;2026-01-12,Anthropic 的 Cowork 把这类分步代办任务的能力放进本地隔离虚拟机;2026-03-11,OpenAI 把 shell 工具,也就是命令行工具,和托管容器工作区并进 Responses API,让模型能直接在受管环境里跑命令。
公司名字可以先放一边。普通人真正该看懂的是:至少从这三家的公开产品方向看,竞争点已经不只是“会不会答”,而是“能不能替你走完几步”。一条更新值不值得看,不看它列了多少功能,先看它会不会改掉你下一步的判断。
这也别理解成模型已经可以完全放手。这里能支持的边界,只是 Google、Anthropic、OpenAI 都在把“能动手”往前推;权限、回退和人工验收,还是现实的一部分。
如果你身边还有人只拿聊天效果判断大模型值不值得跟,这条就适合直接转给他。转出去的时候,只带这一句就够:这半年最重要的不是更聪明,是更能动手。