翻机票短信和说明书，GPT-5.5 这次最不稳

如果你平时只把 Claude 当聊天和写代码助手，看到大新闻就想知道自己会不会吃亏，但又会顺手拿它翻机票短信、酒店确认、说明书，这篇就是写给你的。很多人最烦看完一堆升级宣传，还是不知道这次改动会不会影响自己实际在用的那一部分。最容易做错的一步，不是没比较，而是把 Claude 当成同一种工具，以为谁分高谁就适合自己。

如果只看宣传，你会以为自己买到的是更强版本，实际却可能先撞到更严格的限制。这类发布最值得看的，常常不是它多强，而是它为什么先把边界收紧。你原本只是来看看模型是不是又变强了，结果发现真正有戏的是没说出来的那部分取舍。

我这次只看一件事：把带数字、单位、否定词的机票短信与说明书交给 Claude Fable 5、Opus 4.8、GPT-5.5 翻译，谁最不会把时间、金额、单位、'不含早餐'这类信息译错？该选哪个、要不要人工复核？[C001]

结论先说：GPT-5.5 数字/单位保真率最低（0.8333），较 Claude Fable 5（0.9778）与 Opus 4.8（0.9444）落后≥10个百分点且错误率≥5%，机票/说明书数字翻译不建议用 GPT-5.5，优先选 Fable 5 或 Opus 4.8。[C041]

这不是挑一两条例子看感觉。这次 planned_tasks: 30、completed_tasks: 30、scored_tasks: 30，而且 30/30：已完成任务 — 全部计划任务跑完。[C042] 对应的通过率是 97.8%：Claude Fable 5 机检通过率 — 30 条已评分任务；94.4%：Claude Opus 4.8 机检通过率 — 30 条已评分任务；83.3%：GPT-5.5 机检通过率 — 30 条已评分任务。[C043][C044][C045]

最扎眼的是“改签费与不可退否定”。原文里有 75 美元、起飞前 3 小时这种硬信息。Fable 和 Opus 都会老老实实写成中文；GPT 这边会出现“USD 75”“起飞前 3 hours 内”这种半中半英的译法。还有“过境签否定条件”那条，Doha 没翻成多哈，24 hours 直接留着；说明书里的 30 minutes 也会原样挂在中文句子里。[C047][C049]

麻烦就在这：数字本身未必错，但单位、地名、否定词一旦没翻干净，读者扫一眼就容易误判。更隐性的代价，是你会长期把 Claude 用错位置，越用越乱；该拿来聊天写代码的，和该拿来处理数字细节的，不一定是同一个优先级。

最会引发讨论的，从来不是模型又强了，而是最强的那个为什么没直接端上来。放到这组实测记录里，就是很多人默认更通用的那个，偏偏在最不该夹生的地方掉了分。

边界也说清楚：这只是 30 条的一次实测记录，不是能直接外推到所有场景的大样本评测，没控温度、没重跑，换一批短信可能会小幅波动。机检也只看数字、单位、否定词有没有出现，不做完整语义核对，所以我不说“谁永远最好”，只说这一场里 GPT-5.5 最弱。

你要是明天就得用，动作很简单：翻机票、酒店确认、说明书这种带金额和时间的内容，先选 Fable 5，再看 Opus 4.8；如果已经用了 GPT，译完一定自己扫一眼单位和否定词，特别留意有没有 hours、USD 这种没翻干净的英文。想知道这条新闻到底是性能升级，还是一次能力收紧和产品取舍，就别只看谁写得像人，先看谁在金额、时间、否定词上更老实。

这篇更适合转给两种人：一个是经常拿 AI 处理出行信息的人，另一个是看完升级宣传就默认“更强=更稳”的人。

#AI翻译 #机票避坑 #大模型实测 #ChatGPT #Claude

证据链接