LifeSciBench：把AI赶回实验台

生命科学AI现在很像一种奇厨子：菜谱背得比药典还熟，真进后厨，却分不清先热锅还是先救火。我的判断很明确：生命科学AI的短板不是知识，是科研动作。LifeSciBench最该介绍的地方，不是又发明了多少题，而是它终于不肯再陪AI在教室里装优等生。

大家最容易看错的地方，也恰恰在这里。生命科学AI这些年最耀眼的进步，大多长在“会说”上：会总结论文，会解释通路，会报出靶点，会把一堆数据库串成一条像模像样的句子。于是很多人顺手得出结论：只要再喂更多文献，它就离科学家不远了。错。它离科学家差的，常常不是半本书，而是下一步。

知识是名词，科研是动词。

我说的“动作”，不是狭义上去拧移液枪、按离心机按钮；那太小看科研了。科研动作是一整条链：先找什么，先排什么，哪条证据该信，哪张图只是漂亮，哪个对照比结论更值钱，预算只够一次时先做哪一步。实验室不是图书馆的分馆，它更像厨房、车间和法庭的私生子：既要做活，又要断案，还要为每一步负责。

周一早上八点，医院里做循证综述的小组在筛文献。屏幕上两篇论文标题相近，样本量都不难看，摘要甚至都写得很体面。真正决定生死的，却不是摘要，而是纳入标准：一篇研究看的只是替代终点，另一篇病人群体根本不对。AI最容易干的，是把两篇都概括成“提供支持证据”；研究员真正要做的，是把不该进门的证据挡在门外。科学判断的第一步，常常不是收集，而是排除。

周三下午三点，分子生物学实验室里，一次克隆失败了。胶图上的条带歪得像喝醉的蚯蚓，冰盒里的酶还没回温，旁边的人已经开始怀疑是不是引物设计又翻了车。AI当然能列出十条可能原因：退火温度、模板污染、酶活性、引物二聚体、载体方向、连接条件。像个勤快得过分的搜索框。可真正值钱的不是“可能原因大全”，而是下一步先查什么：先看阴性对照，还是先重跑琼脂糖胶；先换酶，还是先核对序列文件；先救今天的样本，还是先承认昨天的设计有问题。动作的顺序，就是科研的利润表。

周五晚上，做空间生物测量的组会还没结束。大屏幕上满是彩色点位，肿瘤边缘、免疫浸润、衰老相关变化，这些词AI说起来比人还利索。可老板真正问的是另一句：哪一个结论，是这堆原始数据真能撑住的？如果只允许做一个后续验证，你押哪一个？这时候，背诵能力就像一件借来的西装，远看体面，近看袖子全是线头。因为从原始测量走到可辩护的结论，中间隔着选择、比较、怀疑、放弃。科研不是把知识从脑子里倒出来，而是把不确定性拧成一连串负责任的动作。

这才是反常识的地方：模型越像百科全书，它在生命科学里越容易把人骗住。会答，不等于会做；会做一小步，不等于知道下一步；知道下一步，不等于知道哪一步最该先做。最危险的不是AI不知道，而是它答得太像知道。

所以，LifeSciBench如果真要测到点子上，就不该再把生命科学AI当成参加闭卷考试的优等生，而该把它当成第一次值夜班的研究助理。让它去找论文，不是看它能不能背出摘要，而是看它能不能从正文、图表、补充材料里把关键证据掏出来；让它去看研究，不是看它会不会复述作者结论，而是看它能不能闻出设计上的霉味；让它去碰实验计划，不是看它能不能写一份像样的 protocol（实验步骤），而是看它能不能在时间、成本、失败概率之间排出次序。它测的不是脑容量，是科研手感。

说得再刻薄一点，今天不少生命科学AI像一个会背满汉全席菜谱的伙计：报菜名时惊才绝艳，真进厨房就先把火开错。你当然可以夸他见多识广；但晚饭端不上桌，见识就只是另一种摆设。

LifeSciBench真正值得介绍的，不是它给排行榜又添了一块牌子，而是它把问题问对了。科学发现从来不是“你知道世界上有什么”，而是“在一团噪音、代价和不确定性里，你下一步怎么碰它”。谁先把这件事教给AI，谁才是在造研究助手；谁还在迷恋知识问答，谁造的不过是一个更会说话的文献秘书。

我的判断不变：生命科学AI的短板不是知识，是科研动作。知识决定它能说到哪儿，动作决定它能把科学推到哪儿。

参考的一手材料：LAB-Bench（https://arxiv.org/abs/2407.10362）、LABBench2（https://arxiv.org/abs/2604.09554）、FrontierScience（https://arxiv.org/abs/2601.21165）、SpatialBench-Long（https://arxiv.org/abs/2605.28065）、SciAgentArena（https://arxiv.org/abs/2606.12736）、ABC-Bench（https://arxiv.org/abs/2606.11150）。

别人聊 AI，我们测 AI——每个结论都能下载原始数据自己复算。 更多 AI 深度测评 👉 https://crawdpad.com