⚠️ 如果你平时主要用聊天型大模型,最近又总怕自己跟晚了,这条就是写给你的。你刚刷到一条叫 Introducing LifeSciBench 的消息,简单说,就是在介绍 LifeSciBench 这个生命科学评测。第一反应大概率是:又来一个新名词,先划走。但这里如果判断错,代价不是少看一条新闻,而是你会在错误方向上继续花时间、预算和注意力。[C001]
我后来改掉的判断只有一句:生命科学AI的短板不是知识,是科研动作。[C002] 更隐性的代价,是你会一直围着表面热闹转,以为模型能把生物问题讲明白,就离“能帮你把科研流程跑顺”不远了。其实这两件事差得很远。
原因不是题更偏,而是评测开始逼模型碰真正干活的步骤。相关材料写得很直白:以前很多科学评测更像教材式知识题,缺的是文献检索、实验步骤规划、数据分析这些动作;而这套题把图表、数据库、DNA 和蛋白序列都拉进来了。[C003] 对只会在聊天框里试模型的人来说,这个变化很关键,因为它测的不只是“你会不会答”,而是“你能不能替我省下一步实际操作”。
再看公开题型,更能看出方向变了。公共子集里不是泛泛的生物冷知识,而是贴着实验室流程的克隆场景、实验步骤问答、序列问答、表格问答、图表问答。[C005] 一条更新值不值得看,不看它列了多少功能,先看它会不会改掉你下一步的判断。
更扎心的是,另一个更接近真实生物分析场景的评测里,最强那批模型面对 50 多个真实场景、近 300 道开放问答,准确率也只有 17%,多选甚至接近随机。[C004] 这个数字不是在说模型一无是处,而是在提醒你:会解释几个概念,不等于能把科研步骤走通。
所以这条更适合转给两种人:已经开始拿聊天模型当工作帮手的人,和正准备跟进生命科学 AI 工具的人。我的下一步判断会更简单:以后看到这类产品,我先不问它懂多少名词,先问它能不能把文献、步骤、数据这三步接起来。这里还不是亲自跑过后的定案,但已经够用来帮我少踩一个坑。要是你身边也有人正按“会聊天=会做事”在选工具,把这条转给他。你现在更在意模型会解释,还是会把步骤真的跑顺?