机票短信和说明书的数字翻译，谁更靠得住？30 条实测后我先排除 GPT-5.5

平时把 Claude 当聊天和写代码助手的人，看这种模型升级最容易做错的一步，不是没跟上，而是把 Claude 当成同一种工具，以为谁分高谁就适合自己。最烦的是，看完一堆升级宣传，还是不知道这次改动会不会影响自己实际在用的那一部分。

如果只看宣传，你会以为自己买到的是更强版本，实际却可能先撞到更严格的限制。更隐性的代价，是你会长期把 Claude 用错位置，越用越乱。你原本只是来看看模型是不是又变强了，结果真正有戏的，常常是没说出来的那部分取舍。

我这次就盯一个很具体的问题：把带数字、单位、否定词的机票短信与说明书交给 Claude Fable 5、Claude Opus 4.8、GPT-5.5 翻译，谁最不会把时间、金额、单位、“不含早餐”这类信息译错？该选哪个，要不要人工复核？结果先说：GPT-5.5 数字/单位保真率最低，只有 83.3%；Claude Fable 5 是 97.8%，Claude Opus 4.8 是 94.4%。在这类任务上，我不建议优先用 GPT-5.5。[C001]

真正让我警觉的，不是它把 75 写成 57 这种大错，而是它经常“看着翻了，其实没翻完”。比如“75 美元”会留成“USD 75”，“3 小时”会留成“3 hours”，“多哈”会留成“Doha”，“30 分钟”会留成“30 minutes”。懂英文的人也许能猜，但短信和说明书不是写给会猜的人看的，没翻干净，跟没翻完差不多。

这类发布最值得看的，常常不是它多强，而是它为什么先把边界收紧。放到翻译上也一样：真正决定你会不会踩坑的，不是它写得多顺，而是金额、时间、单位这些硬信息有没有老老实实落到中文里。最会引发讨论的，从来不是模型又强了，而是最强的那个为什么没直接端上来。

证据我也尽量压到最硬的那几条。planned_tasks: 30，completed_tasks: 30，scored_tasks: 30；也就是 30/30：已完成任务，全部计划任务都跑完了。[C006][C007][C008] 97.8%：Claude Fable 5 机检通过率——30 条已评分任务。 94.4%：Claude Opus 4.8 机检通过率——30 条已评分任务。 83.3%：GPT-5.5 机检通过率——30 条已评分任务。[C001]

但这篇不能写成盖棺定论。这不是标准基准测试，只是我自己跑的一次实测记录：样本就是 30 条机票短信和说明书类英译中，程序只核对数字、时间、金额、单位、否定词这些硬点，不替你判断整段语义是不是百分百自然。所以它足够支持一个局部判断：机票、酒店、说明书这类“数字错一个就会出事”的翻译，先别选 GPT-5.5；但它还不够支持“所有翻译场景都别用 GPT-5.5”。

如果你平时看这类新闻，想知道它到底是性能升级，还是一次能力收紧和产品取舍，这种实测比宣传词更值钱。明天就要用的话，动作很简单：

机票改签费、酒店房价、行李额度、说明书温度和时长，优先用 Fable 5 或 Opus 4.8。
就算用了通过率更高的，也自己再扫一眼金额、时间、单位和否定词。
这篇可以直接转给那个爱把短信、订单、说明书整段丢给 AI 的人，少踩一次坑就值回票价。

原文链接