脚手架原本是工人搭给楼用的。到了 Ornith-1.0 这种 self-scaffolding(自己给自己搭脚手架)的路数,工人半夜先把脚手架拆了重焊,再往上爬。我判断得很直白:会改自己的 Agent(能自己调用工具、改文件的程序代理),才算下一代编码器。
Ornith-1.0 这个题目里,最值钱的词不是 1.0,也不是 LLM(大语言模型),而是 self-scaffolding。它盯上的不是“怎么把一段代码写出来”,而是“谁来改写写代码的方法本身”。
这就是反常识的地方。
大多数人以为,下一代编码器,无非是答案更快、补全更长、测试过得更多。错。那只是把旧算盘磨得更亮。真正的分水岭,是它能不能回头检查自己的手、自己的锤子、自己的工地规矩,然后把这些东西一并改了。
不会改自己,模型再大,也只是豪华键盘。
2025 年 4 月那篇《A Self-Improving Coding Agent》,已经把话说得很明白:代理不只做题,它还能改自己的代码库,把自己在代码基准测试上的表现从 17% 拉到 53%。这不是“它会写代码”那么简单,这是“它会改写自己写代码的办法”。同年 5 月的《SEW》开始让工作流自己进化;到了 2025 年 9 月,《Lita》又反手抽了行业一耳光:别把手工脚手架堆成迷宫,因为模型越强,这些花架子的优势越薄。
说白了,旧时代在比谁会写提示词;新时代在比谁能让代理自己长出新提示词、新工具和新习惯。
一个名字像鸟的系统,最该学的不是鹦鹉,而是燕子。鹦鹉会学舌,燕子会筑巢。前者会背文档,后者会过冬。
周一凌晨一点二十,望京一间做 SaaS 的办公室还亮着灯。工程师盯着 AGENTS.md,把第 23 条家规补上去:“不要改动自动生成目录;修改前先跑测试;遇到锁文件先停。” 代理刚刚把三十多个文件抹成一锅粥。这个人表面在用 AI 写代码,实际干的是私塾先生的活:给一个聪明但木讷的学徒立家法。2026 年关于代理配置的研究也很刻薄地证明了这一点:大量仓库还停在上下文文件主导的阶段,AGENTS.md 很流行,高级机制却用得很浅。行业嘴上喊自主,手上干的还是“写死规矩”。
今天最忙的程序员,不是在写业务,而是在给 Agent 立家法。
周三下午四点,一名维护老仓库的后端收到一份代理生成的补丁。功能其实八九不离十,麻烦在别处:它搜文件太笨,改文件像拿铁锹绣花,整段覆盖、重复改动、上下文污染。人要花四十分钟给它擦屁股。这里暴露的不是“模型不会业务”,而是“工具不会进化”。真正像样的编码器,碰见这种局面,第一反应不该是继续硬写业务,而该先去磨刀:重写文件编辑器,缩短检索路径,换测试策略,修掉自己最耗时的动作。会干活当然好,会先把家伙什修顺,才像老师傅。
能交付一段代码,不算成年;能重写自己的工作台,才算入行。
周六早晨,一个独立开发者跑完一轮基准测试,把失败样本丢回给代理。代理翻日志、看旧版本归档、比较哪一轮更快更便宜,再去改自己的提示词、分工方式和工具调用顺序,然后再跑一轮。这个闭环一旦成立,代码就不只是产物,而成了代谢。昨天的失败,不是丢脸,是今天改造自己的原料。人类软件工程第一次像样地碰到了“机器学手艺”这件事。
软件最惊人的时刻,不是它替你写完一页代码,而是它开始修改自己明天写代码的方式。
所以我看 Ornith-1.0 的锋利之处,不在于它会不会再多交几份合格代码,而在于它把编码器往上抬了一层。以前我们衡量一个工具,看它会不会做事;现在该看它会不会改造自己做事。以前的代理像临时工,听指挥,跑腿,犯错后等骂。接下来的代理更像包工头:它得会盘点材料、重排工序、修理工具,甚至改掉自己的坏习惯。
这也是为什么“会改自己的 Agent,才算下一代编码器”不是一句漂亮话,而是一条工业分界线。不会改自己的代理,本质上还是一次性劳动力:换个场景就露怯,换个仓库就失忆,换个模型就重学规矩。会改自己的代理,才开始接近一种真正的生产力:它把经验沉进自身结构,把失败熬成下一轮能力,把代码从结果变成再生产机制。
旧时代的高手,写函数。新时代的高手,养出会自修的代理。
谁先让 Agent 改 Agent,谁先摸到下一代软件工业的门把手。不会改自己的,终究只是会说人话的代码助手;会改自己的,才是下一代编码器。
延伸阅读:A Self-Improving Coding Agent、SEW: Self-Evolving Agentic Workflows for Automated Code Generation、Lita: Light Agent Uncovers the Agentic Coding Capabilities of LLMs、Configuring Agentic AI Coding Tools: An Exploratory Study、Agentic Much? Adoption of Coding Agents on GitHub
别人聊 AI,我们测 AI——每个结论都能下载原始数据自己复算。 🔗 官网 👉 https://crawdpad.com