过去半年最大升级：给模型装手脚

只会用聊天型大模型、最近开始想跟进新工具的人，最容易做错的一步，不是看得不够多，而是看完一堆更新，还是不知道这件事跟自己有没有关系、现在要不要跟。你刚刷到一条大模型新闻，手都准备划走了，又怕自己下一步已经慢了半拍。

如果只能用一句话概括 The last six months in LLMs in five minutes，我会把判断压到这一句：这半年最重要的不是更聪明，是更能动手。过去半年最大升级，不是聊天框里答案更漂亮，而是模型开始被做成能替你查资料、进虚拟机、跑命令的工具。

只看公开产品更新，这个方向已经很清楚。2025-12-11，Google 发布 Interactions API 和 Gemini Deep Research Agent，也就是让模型自己规划、执行、整理研究步骤；2026-01-12，Anthropic 的 Cowork 把这类分步代办任务的能力放进本地隔离虚拟机；2026-03-11，OpenAI 把 shell 工具，也就是命令行工具，和托管容器工作区并进 Responses API，让模型能直接在受管环境里跑命令。

公司名字可以先放一边。普通人真正该看懂的是：至少从这三家的公开产品方向看，竞争点已经不只是“会不会答”，而是“能不能替你走完几步”。一条更新值不值得看，不看它列了多少功能，先看它会不会改掉你下一步的判断。

这也别理解成模型已经可以完全放手。这里能支持的边界，只是 Google、Anthropic、OpenAI 都在把“能动手”往前推；权限、回退和人工验收，还是现实的一部分。

如果你身边还有人只拿聊天效果判断大模型值不值得跟，这条就适合直接转给他。转出去的时候，只带这一句就够：这半年最重要的不是更聪明，是更能动手。