⚠️ 这篇是写给只会用聊天型大模型、最近开始想跟进 AI 新工具的普通人。你刚刷到 DSpark 这条消息,本来准备顺手划走,但又怕自己错过了真正会影响下一步判断的那一点。要是这时只盯着“快了几倍”,很容易把时间、预算和注意力花错地方;这次真正值钱的,反而不是速度。
最烦的不是看不懂论文,而是看完一篇长文章,还是不知道这件事跟自己有没有关系、现在要不要跟。我第一眼也差点把它看成普通提速消息,后来回头看才明白:投机解码(speculative decoding)这类方法,重点是尽量不改原模型出答案的规则就能上。所以这条消息最该记住的一句,是:Spec decoding最大卖点不是快,是零损上线。[C002]
老论文给的硬信息,也正好钉在这里。Leviathan 等提出 speculative decoding,强调无须重训或改架构,并在 T5-XXL 上实现 2X-3X 加速且输出分布不变。[C003] 翻成人话,就是原来的大模型和流程不用大动,这才是工程上真正省事的地方。
DeepMind 的 speculative sampling 也强调保留 target model 的分布,在 Chinchilla 70B 上做到 2-2.5X。[C004] 所以这里的“零损”别理解过头:不是保证任何实现都逐字完全一样,更不是看起来快了就一定能无脑上线;更准确地说,是它尽量没改掉原来那套出答案的规则。
所以我现在看 DSpark 这条《DSpark: Speculative decoding accelerates LLM inference [pdf]》[C001],先不看它有多热,先看它会不会动到模型、流程和结果规则。一条更新值不值得看,不看它列了多少功能,先看它会不会改掉你下一步的判断。
如果你现在只是想知道这类提速方案要不要继续跟,这篇建议先存下。以后再刷到“推理提速”消息,先问三件事:要不要重训,要不要改架构,结果规则有没有变。
🤔 你现在选本地模型,会先看总榜,还是先看自己机器的 VRAM?