这事像把夜市摊贩手里的煤气罐,换成了接通整条街的天然气。火一便宜,最先排长队的不是卖灶的人,而是敢开猛火的人。我判断:推理成本一降,敢烧 token(模型处理文本与思考步骤的计量单位)的产品会先爆发。

所以,6 月 24 日 OpenAI 和 Broadcom(博通,做芯片和网络设备的大厂)公布这块专为大模型回答问题而生的推理芯片,我根本不把它当成一条单纯的半导体新闻。我把它看成一条产品新闻。名字叫 Jalapeño(墨西哥辣椒),倒很诚实:真正要辣到市场的,不是芯片外壳,而是产品侧那把终于舍得拧大的火。

很多人一看到芯片,就本能地去想参数、制程、谁在逼近英伟达。那当然重要,但那是军火库视角。我更在意饭馆视角。训练像修皇宫,推理像开饭馆。皇宫一年剪彩一次,饭馆一天要接三顿客。大模型真正碰到人,不是在训练场上,而是在每一次追问、改稿、查错、下单、写代码的时候。

训练赢来掌声,推理带来流水。

反常识就在这里:推理变便宜,第一波变化往往不是“同样的回答更便宜”,而是“原本舍不得做的动作,突然变成标配”。多想几步,多查一轮,多试几版,多记一阵,多调用几个工具,这些过去像加菜,以后会变成底料。芯片降的不是成本,是产品经理的胆怯。

周二凌晨一点二十,杭州一个二十来人的软件团队盯着线上报错。过去他们的编程助手只敢读几份文件,改一处函数,最多跑一轮测试,因为每多检索一次代码库、多验证一遍,账单和等待都往上窜。推理便宜后,产品才敢默认让 Codex 先把整个仓库翻一遍,再读接口文档,再写补丁,再自查,再回归测试。用户看到的是“已修复”,背后其实烧掉的是过去舍不得烧的十几轮思考。

这不是炫技,这是把“会说”改成“会做”。

上午十点半,义乌一个做家居出口的小老板收到买家一长串消息:尺寸不符,关税谁承担,能不能补寄,为什么上次承诺没兑现。过去所谓智能客服,本质上是会复制粘贴的问答模板,因为一旦让它去查订单、翻售后政策、比对历史聊天、再组织一封像人话的英文回复,成本就开始咬人。推理便宜后,产品才敢把这些步骤全跑完。客服不再是“把人挡在门外”,而是“把事处理到门内”。

晚上九点四十,成都一个高二女生把英语作文扔进辅导应用。她不是只想知道这篇错在哪,她想知道自己这三周为什么老在定语从句上跌倒。过去多数学习产品只给一次性批注,因为记住你的错题史、回看你上周的句子、再按你的毛病出三道新题,太烧。推理便宜后,产品才敢长期记账,像一个盯人的老师,而不是一台礼貌的打分机。

便宜不是让同样的回答更便宜,而是让原本舍不得做的事变成默认动作。

这才是 OpenAI 这次自己下场做推理芯片真正值得盯的地方。官方说得很明白,这块芯片不是为芯片选美准备的,而是围着 ChatGPT(聊天机器人产品)、Codex 和未来那些替人办事的产品去长的。它追求的是更高的每瓦效率,更少的数据搬运,更贴着真实服务负载。翻成人话,就是别再拿贵得像首饰的通用算力,去做每天上菜的活。

下一轮产品战争,不是谁最省 token,而是谁最会把 token 烧成结果。

谁敢让模型多想三步,谁就更像一个靠谱员工。谁舍不得那三步,谁就永远像一个会说漂亮话的前台。今天很多 AI(人工智能)产品的问题,不是脑子不够,而是算盘打得太响。它们回答得像实习生,不是因为模型只配做实习生,而是因为产品把它当临时工在用。

我看这条新闻,真正该警惕的不是“芯片公司又打一仗”,而是“产品行业要改朝换代了”。以前大家比谁把一次回答压缩得更省,现在要比谁敢把搜索、验证、记忆、重写、重试这些脏活累活,统统塞进一次服务里。用户未必懂推理芯片,手却很诚实:谁替他多跑几趟腿,他就把时间和钱交给谁。

纸便宜了,报纸才会满街飞。带宽便宜了,短视频才会像野草一样长。推理便宜了,大模型才会从会聊天的橱窗,变成会干活的伙计。

火便宜了,先红的永远是敢爆炒的摊子。AI 这一轮,也一样。

参考链接:OpenAI 官方发布The Verge 报道


别人聊 AI,我们测 AI——每个结论都能下载原始数据自己复算。 🔗 官网 👉 https://crawdpad.com