过去半年,LLM(大语言模型)像酒楼里最会背菜谱的伙计,忽然被推进后厨,袖子一卷开始切姜、看火、端盘。我觉得这半年最重要的,不是它更聪明了,而是它更能动手。把 2025 年 11 月到 2026 年 5 月压成五分钟,就是一句话:模型开始从嘴上功夫,转向手上功夫。
这件事最容易被看反。许多人还把大模型的竞争,当成一场博士考试:谁分数更高,谁引用更全,谁回答更像一个端庄的学究。可过去半年真正翻桌的,不是学问变深了几寸,而是模型第一次像学徒一样,被塞进浏览器、终端、表格、代码仓库和一堆祖传后台里,居然能把活接过去。
会说,是表演;能做,才是生产。
过去模型公司争的是博士帽,这半年争的是工牌。
你看三个场景就明白了。
中午十一点四十,一个后端把“支付回调偶发失败”的工单丢给 GitHub 的编码代理,起身去楼下吃面。二十分钟后,他回来,仓库里已经躺着一份改动说明:定位了哪段旧逻辑会吞掉异常,补了几组测试,顺手把一个相关的边界条件也修了。改得未必完美,但关键变化是,人离开座位以后,活没有停。以前是人守着模型,一句一句喂;现在是模型守着工单,一步一步跑。
以前人守着模型,现在模型守着工单。
下午三点,一个做保险理赔的助理,对着十年前的老系统录资料。没有接口,没有文档,只有灰扑扑的窗口、无穷无尽的下拉菜单和总是弹错位置的按钮。过去这类事得找 RPA(帮电脑重复点点点的流程机器人)公司单独做一套;现在像 Claude、GPT 这一代模型,开始能直接看屏幕、点控件、对照电子文档填表、发现填错再改。它不像科幻片,倒像一个不抱怨加班的实习生。技术一旦肯做脏活,才算摸到现实的门把手。
凌晨一点半,一个十几人的软件团队把新功能合进去,关电脑睡觉。第二天早上九点,自动化代理已经把缺的测试补上,把可疑的安全问题挑出来,把昨晚那几个含糊的报错重新归类,甚至另开一张改动单等人审核。以前最慢的是写代码;现在越来越慢的,是写完之后没人收拾烂摊子。于是最近半年,真正被加速的不是“生成”,而是“收尾”。这很不浪漫,但工业革命本来就不靠浪漫推进。
聪明是天赋,动手是制度。
这就是反常识的地方。模型当然在变聪明,但“更聪明”只是脑力增长;“更能动手”才是生产关系变化。前者让人惊叹,后者让人省人、省时、省流程。前者像一个更会背书的人,后者像一个终于肯下楼取快递、会自己找路、还能顺手把门带上的人。别小看这点俗气的差别。人类社会从来不是被最会说话的人推动的,而是被能把一句话变成一连串动作的人推动的。
从 2025 年 11 月到 2026 年 5 月,几家头部公司的动作几乎把这件事写在了脸上。Anthropic 在推新 Claude 时,把卖点直接写成编码、代理、电脑操作;OpenAI 在推 GPT-5.4 时,重点摆在工具协同、浏览器操作和多步执行;Cursor 这类产品拼的也不是聊天框多顺滑,而是谁能把任务丢到云端,让代理自己找上下文、自己跑检查、自己录演示、自己交回结果。连软件界最诚实的东西都改口了:账单。GitHub 把 Copilot(GitHub 的编程助手)往按量计费上推,不是财务突然诗兴大发,而是因为五秒钟问一句,和放手让它干两小时,已经不是同一种商品。
当一个行业开始按干活收费,它卖的就不是答案,是劳务。
更妙也更狠的一点是:这半年,连“小模型”都重新涨了身价。不是因为它们忽然读通了康德,而是因为跑腿、检索、巡检、初审这些活,本来就不该让最贵的总工亲自去干。大模型像总厨,小模型像满地穿梭的帮工。过去比谁脑子最大,现在比谁班组调度得好。谁能让一群模型分工协作、互相校验、持续值班,谁就不是买了一个会聊天的玩具,而是在搭一间新的数字工厂。
真正的分水岭,不是模型会不会思考,而是它开始值夜班。
我对这半年 LLM 的判断很简单:它们最重要的进步,不在于更像一个答题家,而在于更像一个干活的人。我们以前把模型当成会说话的搜索框,后来把它当成会写字的秘书;现在,它正变成能领任务、能交付、能复查、能接着干的数字学徒。嘴变利索,当然是进步;手长出来,才是改朝换代。
这就是为什么我觉得,过去半年最值得记住的不是哪家又把基准测试抬高了几分,而是哪家先让模型把袖子卷起来。博士更聪明,学徒更有用。论文会赢得掌声,干活才会改掉组织的习惯。真正改变世界的,从来不是一张更漂亮的成绩单,而是后台里突然多出来的那双手。
文中事实节点参考 OpenAI 的 GPT-5.4、GPT-5.3-Codex、Codex app,Anthropic 的 Claude Opus 4.5、Claude Sonnet 4.6,GitHub 的 coding agent 更新、按量计费调整,以及 Cursor 的 computer use、automations。