⚠️ 写给刚开始玩 vibe coding(边聊边写代码)或本地模型、预算不多又怕买错的人:你手里只有一台普通电脑,最怕跟着榜单配卡,最后钱花了、模型还跑不稳,整套本地部署都得重来。先把结论打出来:本地模型最先替代的是正则,不是对话。[C002]
那句“本地模型现在确实能用了(Running local models is good now)”[C001],对普通人最值钱的变化,不是先去硬碰聊天效果,而是先把抽取、分类、打标签、知识库分流这些结构化活接住。更隐性的代价,是你一直盯着排行榜和显卡,却没看见真正先能落地的那一步。
我现在只用 3 步判断值不值得折腾:
- 先看任务是不是要固定格式交结果。票据抽取、客服归类这种活,本质更像在替正则链。
- 再看工具有没有把结构化输出做稳。llama.cpp 直接给了约束 JSON 输出的文件“grammars/json.gbnf”,“llama-server”也把本地聊天、检索和答案重排接口备好了。[C003]
- 最后才看模型大小。一个专门测结构化输出的基准 JSONSchemaBench,把这能力当成现代应用的关键项;Qwen3 官方也点到 1.7B/4B/8B/14B 这档模型。[C004][C005]
本地模型最容易踩的坑,不是模型不够强,而是你先按错了机器预算。本地模型最容易花错的钱,不是升级显卡,而是先照着别人的配置选错模型。要是你一上来想做复杂开放问答,这个判断先别硬套;如果你身边正有人准备配卡,直接转给他。
🤔 你现在选本地模型,会先看总榜,还是先看自己机器的 VRAM?