平时把 Claude 当聊天和写代码助手的人,看这种模型升级最容易做错的一步,不是没跟上,而是把 Claude 当成同一种工具,以为谁分高谁就适合自己。最烦的是,看完一堆升级宣传,还是不知道这次改动会不会影响自己实际在用的那一部分。

如果只看宣传,你会以为自己买到的是更强版本,实际却可能先撞到更严格的限制。更隐性的代价,是你会长期把 Claude 用错位置,越用越乱。你原本只是来看看模型是不是又变强了,结果真正有戏的,常常是没说出来的那部分取舍。

我这次就盯一个很具体的问题:把带数字、单位、否定词的机票短信与说明书交给 Claude Fable 5、Claude Opus 4.8、GPT-5.5 翻译,谁最不会把时间、金额、单位、“不含早餐”这类信息译错?该选哪个,要不要人工复核?结果先说:GPT-5.5 数字/单位保真率最低,只有 83.3%;Claude Fable 5 是 97.8%,Claude Opus 4.8 是 94.4%。在这类任务上,我不建议优先用 GPT-5.5。[C001]

真正让我警觉的,不是它把 75 写成 57 这种大错,而是它经常“看着翻了,其实没翻完”。比如“75 美元”会留成“USD 75”,“3 小时”会留成“3 hours”,“多哈”会留成“Doha”,“30 分钟”会留成“30 minutes”。懂英文的人也许能猜,但短信和说明书不是写给会猜的人看的,没翻干净,跟没翻完差不多。

这类发布最值得看的,常常不是它多强,而是它为什么先把边界收紧。放到翻译上也一样:真正决定你会不会踩坑的,不是它写得多顺,而是金额、时间、单位这些硬信息有没有老老实实落到中文里。最会引发讨论的,从来不是模型又强了,而是最强的那个为什么没直接端上来。

证据我也尽量压到最硬的那几条。planned_tasks: 30,completed_tasks: 30,scored_tasks: 30;也就是 30/30:已完成任务,全部计划任务都跑完了。[C006][C007][C008] 97.8%:Claude Fable 5 机检通过率——30 条已评分任务。 94.4%:Claude Opus 4.8 机检通过率——30 条已评分任务。 83.3%:GPT-5.5 机检通过率——30 条已评分任务。[C001]

但这篇不能写成盖棺定论。这不是标准基准测试,只是我自己跑的一次实测记录:样本就是 30 条机票短信和说明书类英译中,程序只核对数字、时间、金额、单位、否定词这些硬点,不替你判断整段语义是不是百分百自然。所以它足够支持一个局部判断:机票、酒店、说明书这类“数字错一个就会出事”的翻译,先别选 GPT-5.5;但它还不够支持“所有翻译场景都别用 GPT-5.5”。

如果你平时看这类新闻,想知道它到底是性能升级,还是一次能力收紧和产品取舍,这种实测比宣传词更值钱。明天就要用的话,动作很简单:

  1. 机票改签费、酒店房价、行李额度、说明书温度和时长,优先用 Fable 5 或 Opus 4.8。
  2. 就算用了通过率更高的,也自己再扫一眼金额、时间、单位和否定词。
  3. 这篇可以直接转给那个爱把短信、订单、说明书整段丢给 AI 的人,少踩一次坑就值回票价。

原文链接