MinerU是一款将PDF转化为机器可读格式的开源工具(如markdown、json),可以方便地抽取为任意格式。公式、表格、图片精准提取,扫描件也能搞定!项目遵守AGPL3.0开源协议。

🔥 MinerU核心功能

1️⃣ 智能解析结构

  • 自动删除页眉、页脚、页码,保持文本连贯
  • 保留标题、段落、列表等原文档结构,阅读顺序智能优化
  • 多栏排版自动识别,输出符合人类阅读习惯的文本

2️⃣ 多模态内容提取

  • 图片+描述:提取文档中所有图像并保存到独立文件夹
  • 表格+公式:自动识别表格和数学公式,转换为LaTeX/HTML格式,科研文献处理友好!
  • OCR支持:检测扫描版/乱码PDF时自动启用OCR,支持84种语言识别

3️⃣ 跨平台高效运行

  • 支持CPU/GPU加速
  • 兼容Windows、Linux、macOS

使用CPU快速体验

1. 安装magic-pdf

最新版本国内镜像源同步可能会有延迟,请耐心等待

conda create -n mineru python=3.10
conda activate mineru
pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

2. 下载模型权重文件

详细参考 如何下载模型文件

3. 修改配置文件以进行额外配置

完成下载模型权重文件步骤后,脚本会自动生成用户目录下的magic-pdf.json文件,并自动配置默认模型路径。

源代码:https://github.com/opendatalab/MinerU/tree/master