这半年，模型长出了手

过去半年，LLM（大语言模型）像酒楼里最会背菜谱的伙计，忽然被推进后厨，袖子一卷开始切姜、看火、端盘。我觉得这半年最重要的，不是它更聪明了，而是它更能动手。把 2025 年 11 月到 2026 年 5 月压成五分钟，就是一句话：模型开始从嘴上功夫，转向手上功夫。

这件事最容易被看反。许多人还把大模型的竞争，当成一场博士考试：谁分数更高，谁引用更全，谁回答更像一个端庄的学究。可过去半年真正翻桌的，不是学问变深了几寸，而是模型第一次像学徒一样，被塞进浏览器、终端、表格、代码仓库和一堆祖传后台里，居然能把活接过去。

会说，是表演；能做，才是生产。

过去模型公司争的是博士帽，这半年争的是工牌。

你看三个场景就明白了。

中午十一点四十，一个后端把“支付回调偶发失败”的工单丢给 GitHub 的编码代理，起身去楼下吃面。二十分钟后，他回来，仓库里已经躺着一份改动说明：定位了哪段旧逻辑会吞掉异常，补了几组测试，顺手把一个相关的边界条件也修了。改得未必完美，但关键变化是，人离开座位以后，活没有停。以前是人守着模型，一句一句喂；现在是模型守着工单，一步一步跑。

以前人守着模型，现在模型守着工单。

下午三点，一个做保险理赔的助理，对着十年前的老系统录资料。没有接口，没有文档，只有灰扑扑的窗口、无穷无尽的下拉菜单和总是弹错位置的按钮。过去这类事得找 RPA（帮电脑重复点点点的流程机器人）公司单独做一套；现在像 Claude、GPT 这一代模型，开始能直接看屏幕、点控件、对照电子文档填表、发现填错再改。它不像科幻片，倒像一个不抱怨加班的实习生。技术一旦肯做脏活，才算摸到现实的门把手。

凌晨一点半，一个十几人的软件团队把新功能合进去，关电脑睡觉。第二天早上九点，自动化代理已经把缺的测试补上，把可疑的安全问题挑出来，把昨晚那几个含糊的报错重新归类，甚至另开一张改动单等人审核。以前最慢的是写代码；现在越来越慢的，是写完之后没人收拾烂摊子。于是最近半年，真正被加速的不是“生成”，而是“收尾”。这很不浪漫，但工业革命本来就不靠浪漫推进。

聪明是天赋，动手是制度。

这就是反常识的地方。模型当然在变聪明，但“更聪明”只是脑力增长；“更能动手”才是生产关系变化。前者让人惊叹，后者让人省人、省时、省流程。前者像一个更会背书的人，后者像一个终于肯下楼取快递、会自己找路、还能顺手把门带上的人。别小看这点俗气的差别。人类社会从来不是被最会说话的人推动的，而是被能把一句话变成一连串动作的人推动的。

从 2025 年 11 月到 2026 年 5 月，几家头部公司的动作几乎把这件事写在了脸上。Anthropic 在推新 Claude 时，把卖点直接写成编码、代理、电脑操作；OpenAI 在推 GPT-5.4 时，重点摆在工具协同、浏览器操作和多步执行；Cursor 这类产品拼的也不是聊天框多顺滑，而是谁能把任务丢到云端，让代理自己找上下文、自己跑检查、自己录演示、自己交回结果。连软件界最诚实的东西都改口了：账单。GitHub 把 Copilot（GitHub 的编程助手）往按量计费上推，不是财务突然诗兴大发，而是因为五秒钟问一句，和放手让它干两小时，已经不是同一种商品。

当一个行业开始按干活收费，它卖的就不是答案，是劳务。

更妙也更狠的一点是：这半年，连“小模型”都重新涨了身价。不是因为它们忽然读通了康德，而是因为跑腿、检索、巡检、初审这些活，本来就不该让最贵的总工亲自去干。大模型像总厨，小模型像满地穿梭的帮工。过去比谁脑子最大，现在比谁班组调度得好。谁能让一群模型分工协作、互相校验、持续值班，谁就不是买了一个会聊天的玩具，而是在搭一间新的数字工厂。

真正的分水岭，不是模型会不会思考，而是它开始值夜班。

我对这半年 LLM 的判断很简单：它们最重要的进步，不在于更像一个答题家，而在于更像一个干活的人。我们以前把模型当成会说话的搜索框，后来把它当成会写字的秘书；现在，它正变成能领任务、能交付、能复查、能接着干的数字学徒。嘴变利索，当然是进步；手长出来，才是改朝换代。

这就是为什么我觉得，过去半年最值得记住的不是哪家又把基准测试抬高了几分，而是哪家先让模型把袖子卷起来。博士更聪明，学徒更有用。论文会赢得掌声，干活才会改掉组织的习惯。真正改变世界的，从来不是一张更漂亮的成绩单，而是后台里突然多出来的那双手。

文中事实节点参考 OpenAI 的 GPT-5.4、GPT-5.3-Codex、Codex app，Anthropic 的 Claude Opus 4.5、Claude Sonnet 4.6，GitHub 的 coding agent 更新、按量计费调整，以及 Cursor 的 computer use、automations。