⚠️ 平时把 Claude 当聊天和写代码助手的人,这次最容易看错。你点开这条大新闻,本来只想确认它是不是又更强了;如果还按这个问题看,代价是你会以为自己拿到的是更猛版本,实际先撞上的却是更严格的边界。把 Claude 当成同一种工具,以为谁分高谁就适合自己。更隐性的代价,是你会长期把 Claude 用错位置,越用越乱。科研AI的第一性不是更懂,是可复现[C002]。

我一开始也是按“是不是更强了”去看,后来才发现,真正该看的不是它像不像更聪明的科学家,而是它先把哪些地方钉死。你原本只是来看看模型是不是又变强了,结果发现真正有戏的是没说出来的那部分取舍。这类发布最值得看的,常常不是它多强,而是它为什么先把边界收紧。

最直接的证据,是官方给它的定位就不是聊天框,而是“给科学家用的工作台”(Claude Science, an AI workbench for scientists)[C001]。新闻稿也反复强调,每个输出都带可审计历史,方便别人回头验证和复现,不是只看你当下答得像不像[C003]。

再往下看,产品页写得更直白:图表、表格、计算笔记,都要连着精确代码、运行环境和对话历史;复核器还会标记错误引用、找不到来源的数字、以及图文对不上的地方[C004]。这已经不是“帮你更快写完”那么简单,而是在先解决“别人能不能把你的结果再做一遍”。

但这里最容易偷换概念。文档写得很清楚:复核器会对照执行记录查引用、查数值、查计划有没有真做,却不会替你重跑分析[C005]。所以可复现不等于可相信,它只是先把“你怎么得出这个结论”钉住。

这也是为什么它更适合做论文图表、实验记录、多人交接,不太像给只想快问快答的人准备的。想知道这条新闻到底是性能升级,还是一次能力收紧和产品取舍,就先别只盯着模型更不更懂,先看它有没有把流程、留痕和复核做成默认配置。最会引发讨论的,从来不是模型又强了,而是最强的那个为什么没直接端上来。把这条判断转给还在把所有 Claude 当成同一种工具的人,比继续围观“又升级了”更有用。

🤔 你现在最想先避开的,是哪一个坑?