现在不少科研Agent(替人分步做科研活的智能体),像新开餐馆时先买最贵的灶,却没有菜谱、备料单和出菜顺序。锅火很旺,盘子很响,菜却一口一个味。我判断:科研Agent先缺SOP(标准操作流程),不缺模型。

若是做 K-Dense-AI(面向科研流程的智能系统)这类东西,或者做 scientific-agent-skills(科研智能体技能库),先忙着换模型,和县城酒楼先换吊灯一个路数:看上去更体面,后厨还是乱。科研里真正坏事的,往往不是“不会想”,而是“没按次序做”“没留下痕迹”“出了岔子没人接”。

反常识正在这里。模型越强,越容易把流程的空心掩得严丝合缝。弱模型胡说,像破锣,一敲就露馅;强模型胡说,像小提琴,音色太好,听的人忘了查谱。没有SOP的Agent,越聪明,越会把错误说得像正确。

周二晚上十一点,材料方向的博士生把题目扔给系统:找“高湿环境下固态电解质失效”的证据。十分钟后,屏幕吐出六十多篇文献,标题整齐,摘要华丽,连表格都排得像样。可他往下翻,综述和实验混在一起,早年的老路线和最近被证伪的判断并排站着,检索词从“失效”滑到“降解”再滑到“稳定性”,像一辆没有刹车的购物车。不是模型不会找,是没人先规定:查哪几个库,怎么拆关键词,什么算核心证据,什么该剔掉,互相打架的结果按什么规则裁决。

没有检索SOP,文献不是证据,是噪音摆盘。

周四下午三点,做细胞实验的小组想让系统起草一版染色流程。它写得很周到,像酒店菜单:先孵育,后清洗,再成像,句句体面。真正值钱的东西却不见了:阴性对照怎么设,批次差异怎么记,什么异常要立刻停,哪些图再好看也不能收。实验室最贵的从来不是试剂,是返工。返工的根子,往往不是笨,是漏。

科研不是比谁会说,而是比谁不漏。

周五早上,药研团队要做靶点梳理。系统一头连论文库,一头连临床登记网站,再拽进内部表格,半小时拼出一张“机会地图”。会上看着很提气,像刚铺好的高速路。细看才知道,旧名新名没对齐,同名不同物被并成一家,动物实验和人体结果摆在同一列,失败项目被“优化语言”洗得像只是暂缓。表格不是地图,是雾。

会说话的系统不稀缺,会交班的系统才稀缺。

所以我说,scientific-agent-skills(科研智能体技能库)真正该长的,不是花哨本事,而是六根骨头:任务边界怎么定,信息入口从哪里来,证据按什么分层,步骤按什么顺序走,遇到例外怎么岔开,最后拿什么验收。少一根,Agent就开始演;六根都硬,它才像同事,不像戏子。

模型像火,SOP像锅;火再大,没有锅,只能把厨房点着。

很多人把科研想成“聪明人的灵光一闪”,这其实是论文写作留下的幻觉。真正的科研,尤其在实验室和项目组里,更像一种脏手艺:命名要统一,样本要留痕,失败要归档,判断要能回放,交接要让下一个人接得住。最深的知识,常常不在论文里,在师兄那句轻飘飘的话里:“这组先别信,你看批次号。”在人类社会里,这叫默会规矩;到了机器这里,就得把它翻译成SOP。谁不肯做这一步,谁就只是在拿大模型给旧作坊刷金漆。

一个课题组真正的护城河,不是论文题目,是那些没写下来却天天在用的规矩。

这也是今天许多AI项目的通病:总想先给机器换脑子,不肯先替组织立家法。脑子当然重要,但家法决定脑子有没有地方使。没有SOP,模型只能当一个口才很好的旁听生;有了SOP,它才可能成为一个能复现、能审计、能扩展的研究伙伴。

把科研Agent做成生产力,先别迷信神童,先训练账房、库管、检验员和接线员。科研这件事,最怕的不是机器不聪明,最怕的是人类自己还把流程活成江湖。江湖靠师徒心领神会,系统靠规矩接力奔跑。前者能出传奇,后者才能出规模。

我的判断就一句:科研Agent先缺SOP,不缺模型。谁先把菜谱、备料单和出菜顺序写出来,谁才配谈下一代科研智能。