⚠️ 只会用聊天型大模型、最近开始想跟新工具的人,最容易在这条上看错。你刚刷到 Ornith-1.0 的消息,第一反应多半是:又来了一个更大的模型,划走算了。可这种错判看起来只省了 10 秒,后面可能会让你在错误方向上花掉几天时间、预算和注意力。真正该先记住的一句是:Agent 能力先差在脚手架,不差在参数。[C002]
这里的脚手架,不是装饰,你可以先理解成模型做事的流程:怎么拆任务、什么时候调工具、做完要不要回头检查。它对应的原文标题是 Ornith-1.0: Self-Scaffolding LLMs for Agentic Coding,说白了不是在炫一个新名词,而是在讲“这套流程本身也能被训练”。[C001] 官方博客写得很直白:它不再守着固定的人类设计流程,而是先改流程,再按这个流程生成解题过程,最后把结果反馈同时给流程和解题两边。[C003]
这也是我后来改判断的地方。以前看到这类发布,我会先盯参数、底层模型、上下文长度;这次更值得看的,是它把“怎么做事”也算进能力里了。一条更新值不值得看,不看它列了多少功能,先看它会不会改掉你下一步的判断。397B 那张模型说明页还给了两个官方基准分数,分别是 77.5 和 82.4。[C004] 这两个数不需要你背,但它至少说明:官方想强调的不是换个包装名词,而是流程层的变化要和结果一起看。
所以这条更适合谁?如果你只是想找个聊天更顺手的模型,这条可以先不追;如果你已经开始拿大模型写代码,老觉得同一个模型有时很会做、有时又乱拆任务,这条更值得先存一下。以后再看同类更新,先盯三件事:会不会拆任务、会不会调工具、会不会自己回头检查。最近正准备挑代码助手的人,建议先存一下。