生命科学AI现在很像一种奇厨子:菜谱背得比药典还熟,真进后厨,却分不清先热锅还是先救火。我的判断很明确:生命科学AI的短板不是知识,是科研动作。LifeSciBench最该介绍的地方,不是又发明了多少题,而是它终于不肯再陪AI在教室里装优等生。
大家最容易看错的地方,也恰恰在这里。生命科学AI这些年最耀眼的进步,大多长在“会说”上:会总结论文,会解释通路,会报出靶点,会把一堆数据库串成一条像模像样的句子。于是很多人顺手得出结论:只要再喂更多文献,它就离科学家不远了。错。它离科学家差的,常常不是半本书,而是下一步。
知识是名词,科研是动词。
我说的“动作”,不是狭义上去拧移液枪、按离心机按钮;那太小看科研了。科研动作是一整条链:先找什么,先排什么,哪条证据该信,哪张图只是漂亮,哪个对照比结论更值钱,预算只够一次时先做哪一步。实验室不是图书馆的分馆,它更像厨房、车间和法庭的私生子:既要做活,又要断案,还要为每一步负责。
周一早上八点,医院里做循证综述的小组在筛文献。屏幕上两篇论文标题相近,样本量都不难看,摘要甚至都写得很体面。真正决定生死的,却不是摘要,而是纳入标准:一篇研究看的只是替代终点,另一篇病人群体根本不对。AI最容易干的,是把两篇都概括成“提供支持证据”;研究员真正要做的,是把不该进门的证据挡在门外。科学判断的第一步,常常不是收集,而是排除。
周三下午三点,分子生物学实验室里,一次克隆失败了。胶图上的条带歪得像喝醉的蚯蚓,冰盒里的酶还没回温,旁边的人已经开始怀疑是不是引物设计又翻了车。AI当然能列出十条可能原因:退火温度、模板污染、酶活性、引物二聚体、载体方向、连接条件。像个勤快得过分的搜索框。可真正值钱的不是“可能原因大全”,而是下一步先查什么:先看阴性对照,还是先重跑琼脂糖胶;先换酶,还是先核对序列文件;先救今天的样本,还是先承认昨天的设计有问题。动作的顺序,就是科研的利润表。
周五晚上,做空间生物测量的组会还没结束。大屏幕上满是彩色点位,肿瘤边缘、免疫浸润、衰老相关变化,这些词AI说起来比人还利索。可老板真正问的是另一句:哪一个结论,是这堆原始数据真能撑住的?如果只允许做一个后续验证,你押哪一个?这时候,背诵能力就像一件借来的西装,远看体面,近看袖子全是线头。因为从原始测量走到可辩护的结论,中间隔着选择、比较、怀疑、放弃。科研不是把知识从脑子里倒出来,而是把不确定性拧成一连串负责任的动作。
这才是反常识的地方:模型越像百科全书,它在生命科学里越容易把人骗住。会答,不等于会做;会做一小步,不等于知道下一步;知道下一步,不等于知道哪一步最该先做。最危险的不是AI不知道,而是它答得太像知道。
所以,LifeSciBench如果真要测到点子上,就不该再把生命科学AI当成参加闭卷考试的优等生,而该把它当成第一次值夜班的研究助理。让它去找论文,不是看它能不能背出摘要,而是看它能不能从正文、图表、补充材料里把关键证据掏出来;让它去看研究,不是看它会不会复述作者结论,而是看它能不能闻出设计上的霉味;让它去碰实验计划,不是看它能不能写一份像样的 protocol(实验步骤),而是看它能不能在时间、成本、失败概率之间排出次序。它测的不是脑容量,是科研手感。
说得再刻薄一点,今天不少生命科学AI像一个会背满汉全席菜谱的伙计:报菜名时惊才绝艳,真进厨房就先把火开错。你当然可以夸他见多识广;但晚饭端不上桌,见识就只是另一种摆设。
LifeSciBench真正值得介绍的,不是它给排行榜又添了一块牌子,而是它把问题问对了。科学发现从来不是“你知道世界上有什么”,而是“在一团噪音、代价和不确定性里,你下一步怎么碰它”。谁先把这件事教给AI,谁才是在造研究助手;谁还在迷恋知识问答,谁造的不过是一个更会说话的文献秘书。
我的判断不变:生命科学AI的短板不是知识,是科研动作。知识决定它能说到哪儿,动作决定它能把科学推到哪儿。
别人聊 AI,我们测 AI——每个结论都能下载原始数据自己复算。 更多 AI 深度测评 👉 https://crawdpad.com