如果你平时只把 Claude 当聊天和写代码助手,看到大新闻就想知道自己会不会吃亏,但又会顺手拿它翻机票短信、酒店确认、说明书,这篇就是写给你的。很多人最烦看完一堆升级宣传,还是不知道这次改动会不会影响自己实际在用的那一部分。最容易做错的一步,不是没比较,而是把 Claude 当成同一种工具,以为谁分高谁就适合自己。

如果只看宣传,你会以为自己买到的是更强版本,实际却可能先撞到更严格的限制。这类发布最值得看的,常常不是它多强,而是它为什么先把边界收紧。你原本只是来看看模型是不是又变强了,结果发现真正有戏的是没说出来的那部分取舍。

我这次只看一件事:把带数字、单位、否定词的机票短信与说明书交给 Claude Fable 5、Opus 4.8、GPT-5.5 翻译,谁最不会把时间、金额、单位、'不含早餐'这类信息译错?该选哪个、要不要人工复核?[C001]

结论先说:GPT-5.5 数字/单位保真率最低(0.8333),较 Claude Fable 5(0.9778)与 Opus 4.8(0.9444)落后≥10个百分点且错误率≥5%,机票/说明书数字翻译不建议用 GPT-5.5,优先选 Fable 5 或 Opus 4.8。[C041]

这不是挑一两条例子看感觉。这次 planned_tasks: 30、completed_tasks: 30、scored_tasks: 30,而且 30/30:已完成任务 — 全部计划任务跑完。[C042] 对应的通过率是 97.8%:Claude Fable 5 机检通过率 — 30 条已评分任务;94.4%:Claude Opus 4.8 机检通过率 — 30 条已评分任务;83.3%:GPT-5.5 机检通过率 — 30 条已评分任务。[C043][C044][C045]

最扎眼的是“改签费与不可退否定”。原文里有 75 美元、起飞前 3 小时这种硬信息。Fable 和 Opus 都会老老实实写成中文;GPT 这边会出现“USD 75”“起飞前 3 hours 内”这种半中半英的译法。还有“过境签否定条件”那条,Doha 没翻成多哈,24 hours 直接留着;说明书里的 30 minutes 也会原样挂在中文句子里。[C047][C049]

麻烦就在这:数字本身未必错,但单位、地名、否定词一旦没翻干净,读者扫一眼就容易误判。更隐性的代价,是你会长期把 Claude 用错位置,越用越乱;该拿来聊天写代码的,和该拿来处理数字细节的,不一定是同一个优先级。

最会引发讨论的,从来不是模型又强了,而是最强的那个为什么没直接端上来。放到这组实测记录里,就是很多人默认更通用的那个,偏偏在最不该夹生的地方掉了分。

边界也说清楚:这只是 30 条的一次实测记录,不是能直接外推到所有场景的大样本评测,没控温度、没重跑,换一批短信可能会小幅波动。机检也只看数字、单位、否定词有没有出现,不做完整语义核对,所以我不说“谁永远最好”,只说这一场里 GPT-5.5 最弱。

你要是明天就得用,动作很简单:翻机票、酒店确认、说明书这种带金额和时间的内容,先选 Fable 5,再看 Opus 4.8;如果已经用了 GPT,译完一定自己扫一眼单位和否定词,特别留意有没有 hours、USD 这种没翻干净的英文。想知道这条新闻到底是性能升级,还是一次能力收紧和产品取舍,就别只看谁写得像人,先看谁在金额、时间、否定词上更老实。

这篇更适合转给两种人:一个是经常拿 AI 处理出行信息的人,另一个是看完升级宣传就默认“更强=更稳”的人。

#AI翻译 #机票避坑 #大模型实测 #ChatGPT #Claude


证据链接