我觉得 MinerU 像后厨里剔鱼刺、拆蟹壳的师傅:你付钱,不是为了听他宣布“这是鱼,那是蟹”,而是为了让 Agent(会自己调工具干活的智能助手)一口吞下去不被卡死。MinerU卖的是Agent可吞的数据,不是识字。

把它理解成 OCR(图片转文字识别),就像把中央厨房理解成识字班。识字只回答“这是什么字”;数据要回答“这一行归谁,这个脚注咬住哪张表,这一页到底接前文还是拐进附录”。识字是把墨迹抄下来,数据是把关系留住。

反常识恰恰在这里:模型越聪明,入口越不能脏。人类擅长在混乱里脑补秩序,Agent 只会在脏数据里放大错误。人看到跨页表格,会顺手把表头接回去;机器拿到被打散的行列,只会一本正经地胡说八道,而且速度还很快。OCR解决的是看见,MinerU解决的是下咽。

MinerU 自己也没打算把这事说小。GitHub 首页把它定义成把复杂文档整理成适合 Agent 工作流直接使用的 Markdown(带层级的轻量文本格式)和 JSON(机器容易处理的数据格式);官网直接写“高度结构化与机器可读输出”。话说得已经很诚实了:它卖的不是眼睛,是消化道。

凌晨十一点四十二分,一个投研助理把一份八十多页的行业报告扔给模型,要它比较三家公司资本开支。字都认出来了,表却散成一地鱼刺:单位飞了,脚注丢了,跨页表头死在上一页。人还能凭经验补,Agent 会把“亿元”和“百万元”端到一张桌上,像把高脚杯和痰盂并排摆在宴席中央。第二天会上,出丑的不是模型,出丑的是那碗没挑刺的饭。

下午四点,一个化学方向的博士生在文献里找反应条件。结构图、公式、正文说明、图注,本来是一家人,却被版面拆成了四间屋。OCR 把每个人都点到了名,却没告诉你谁和谁是夫妻,谁又是隔壁亲戚。结果模型把旁边图注里的温度认成这一段反应的条件,像婚礼司仪把隔壁桌的新郎喊上台。真正值钱的,不是认出那个数字,而是认出那个数字到底归谁。

周一早上,法务收到一份扫描合同和三份补充协议,让模型抽付款节点和违约例外。难的根本不是字,难的是主合同哪一条被补充协议改写,哪个脚注只对附件二生效,哪句“除外”专门用来打前文的脸。OCR 把每个字都背熟了,还是像一个把姓和名拆散的前台。机器一旦不懂层级、引用和归属,它就不是在读文件,它是在拆家庭。

这也是我对 OpenDataLab / MinerU 的判断:它盯上的不是“识字”这门手艺,而是“把人类文书改造成机器劳动材料”这门生意。文档本来就是给人看的家具:页眉页脚是门牌,脚注是耳语,表格是被压缩过的官僚秩序。你不先拆家具,Agent 就没法住进去;你不先去刺,它就只能卡着嗓子干活。

识字会越来越便宜,消化会越来越昂贵。
人类能在乱码里脑补秩序,Agent 只会在脏数据里放大错误。
文档是给人看的家具,数据才是给机器吃的粮食。
谁把纸张做成机器的口粮,谁就在修下一代基础设施。
MinerU 真正卖的,不是“我认得这几个字”,而是“这堆东西终于能让 Agent 干活了”。

所以我看 MinerU,不把它当一个更卖力的识字匠,而把它当一家中央厨房。后厨把鱼刺挑净、把骨头拆开、把菜按份装盒,前台的模型才有资格谈聪明。否则,再大的模型,也不过是一个会背菜单的饿汉。


别人聊 AI,我们测 AI——每个结论都能下载原始数据自己复算。 🔗 官网 👉 https://crawdpad.com