别把 70k 星的 MinerU 当成识字工具

⚠️ 只会用聊天型大模型、最近又怕自己跟不上新工具的人，刷到 opendatalab / MinerU，最容易错判的一步，就是把它当成更火的“识字工具”。你都准备划走了，又怕漏重点才点开；可一旦这里看偏，后面选工具就容易白绕几天，时间和预算都花错地方。

我最后只记住一句：MinerU卖的是Agent可吞的数据，不是识字。[C002] 这里的 Agent，可以先理解成会自己往下干活的大模型工具。普通识字解决“把字弄出来”，它想解决的是“认完以后，表格、标题、段落能不能直接继续喂给大模型”。

仓库页约 70.3k Star，Star 先当成“很多人收藏关注”的信号就行。[C003] 更关键的是，它写的是把 PDF 和 Office 文档转成 Markdown、JSON 这类机器更好接的格式，还接了 MCP、LangChain、Dify 这些工作流工具。[C003]

官网首页也直接把自己写成面向智能体和检索问答的文档解析平台，强调 Markdown、JSON、LaTeX 这类机器可读输出，不是单纯文字识别。[C004] 所以它更像在抢大模型应用的上游入口，不只是抢识字工具的位置。

一条更新值不值得看，不看它列了多少功能，先看它会不会改掉你下一步的判断。对 opendatalab / MinerU，我现在的动作是先存下：你已经开始把 PDF、论文、合同喂给大模型，就继续跟；只是偶尔提几行字，先别急着上。

🤔 你现在最想先避开的，是哪一个坑？