会聊天，不等于会做科研：LifeSciBench 这下真扎心

⚠️ 如果你平时主要用聊天型大模型，最近又总怕自己跟晚了，这条就是写给你的。你刚刷到一条叫 Introducing LifeSciBench 的消息，简单说，就是在介绍 LifeSciBench 这个生命科学评测。第一反应大概率是：又来一个新名词，先划走。但这里如果判断错，代价不是少看一条新闻，而是你会在错误方向上继续花时间、预算和注意力。[C001]

我后来改掉的判断只有一句：生命科学AI的短板不是知识，是科研动作。[C002] 更隐性的代价，是你会一直围着表面热闹转，以为模型能把生物问题讲明白，就离“能帮你把科研流程跑顺”不远了。其实这两件事差得很远。

原因不是题更偏，而是评测开始逼模型碰真正干活的步骤。相关材料写得很直白：以前很多科学评测更像教材式知识题，缺的是文献检索、实验步骤规划、数据分析这些动作；而这套题把图表、数据库、DNA 和蛋白序列都拉进来了。[C003] 对只会在聊天框里试模型的人来说，这个变化很关键，因为它测的不只是“你会不会答”，而是“你能不能替我省下一步实际操作”。

再看公开题型，更能看出方向变了。公共子集里不是泛泛的生物冷知识，而是贴着实验室流程的克隆场景、实验步骤问答、序列问答、表格问答、图表问答。[C005] 一条更新值不值得看，不看它列了多少功能，先看它会不会改掉你下一步的判断。

更扎心的是，另一个更接近真实生物分析场景的评测里，最强那批模型面对 50 多个真实场景、近 300 道开放问答，准确率也只有 17%，多选甚至接近随机。[C004] 这个数字不是在说模型一无是处，而是在提醒你：会解释几个概念，不等于能把科研步骤走通。

所以这条更适合转给两种人：已经开始拿聊天模型当工作帮手的人，和正准备跟进生命科学 AI 工具的人。我的下一步判断会更简单：以后看到这类产品，我先不问它懂多少名词，先问它能不能把文献、步骤、数据这三步接起来。这里还不是亲自跑过后的定案，但已经够用来帮我少踩一个坑。要是你身边也有人正按“会聊天=会做事”在选工具，把这条转给他。你现在更在意模型会解释，还是会把步骤真的跑顺？