MinerU卖的不是眼睛

我觉得 MinerU 像后厨里剔鱼刺、拆蟹壳的师傅：你付钱，不是为了听他宣布“这是鱼，那是蟹”，而是为了让 Agent（会自己调工具干活的智能助手）一口吞下去不被卡死。MinerU卖的是Agent可吞的数据，不是识字。

把它理解成 OCR（图片转文字识别），就像把中央厨房理解成识字班。识字只回答“这是什么字”；数据要回答“这一行归谁，这个脚注咬住哪张表，这一页到底接前文还是拐进附录”。识字是把墨迹抄下来，数据是把关系留住。

反常识恰恰在这里：模型越聪明，入口越不能脏。人类擅长在混乱里脑补秩序，Agent 只会在脏数据里放大错误。人看到跨页表格，会顺手把表头接回去；机器拿到被打散的行列，只会一本正经地胡说八道，而且速度还很快。OCR解决的是看见，MinerU解决的是下咽。

MinerU 自己也没打算把这事说小。GitHub 首页把它定义成把复杂文档整理成适合 Agent 工作流直接使用的 Markdown（带层级的轻量文本格式）和 JSON（机器容易处理的数据格式）；官网直接写“高度结构化与机器可读输出”。话说得已经很诚实了：它卖的不是眼睛，是消化道。

凌晨十一点四十二分，一个投研助理把一份八十多页的行业报告扔给模型，要它比较三家公司资本开支。字都认出来了，表却散成一地鱼刺：单位飞了，脚注丢了，跨页表头死在上一页。人还能凭经验补，Agent 会把“亿元”和“百万元”端到一张桌上，像把高脚杯和痰盂并排摆在宴席中央。第二天会上，出丑的不是模型，出丑的是那碗没挑刺的饭。

下午四点，一个化学方向的博士生在文献里找反应条件。结构图、公式、正文说明、图注，本来是一家人，却被版面拆成了四间屋。OCR 把每个人都点到了名，却没告诉你谁和谁是夫妻，谁又是隔壁亲戚。结果模型把旁边图注里的温度认成这一段反应的条件，像婚礼司仪把隔壁桌的新郎喊上台。真正值钱的，不是认出那个数字，而是认出那个数字到底归谁。

周一早上，法务收到一份扫描合同和三份补充协议，让模型抽付款节点和违约例外。难的根本不是字，难的是主合同哪一条被补充协议改写，哪个脚注只对附件二生效，哪句“除外”专门用来打前文的脸。OCR 把每个字都背熟了，还是像一个把姓和名拆散的前台。机器一旦不懂层级、引用和归属，它就不是在读文件，它是在拆家庭。

这也是我对 OpenDataLab / MinerU 的判断：它盯上的不是“识字”这门手艺，而是“把人类文书改造成机器劳动材料”这门生意。文档本来就是给人看的家具：页眉页脚是门牌，脚注是耳语，表格是被压缩过的官僚秩序。你不先拆家具，Agent 就没法住进去；你不先去刺，它就只能卡着嗓子干活。

识字会越来越便宜，消化会越来越昂贵。
人类能在乱码里脑补秩序，Agent 只会在脏数据里放大错误。
文档是给人看的家具，数据才是给机器吃的粮食。
谁把纸张做成机器的口粮，谁就在修下一代基础设施。
MinerU 真正卖的，不是“我认得这几个字”，而是“这堆东西终于能让 Agent 干活了”。

所以我看 MinerU，不把它当一个更卖力的识字匠，而把它当一家中央厨房。后厨把鱼刺挑净、把骨头拆开、把菜按份装盒，前台的模型才有资格谈聪明。否则，再大的模型，也不过是一个会背菜单的饿汉。

别人聊 AI，我们测 AI——每个结论都能下载原始数据自己复算。 🔗 官网 👉 https://crawdpad.com