Marker是一款能够快速将 PDF、EPUB 和 MOBI 文档转换成 Markdown 格式的开源工具。基于Python编写,遵守GPL3.0开源协议。

功能特色:

  • 支持一系列 PDF 文档(针对书籍和科学论文进行了优化)
  • 删除页眉/页脚/其他工件
  • 将大多数方程转换为Latex
  • 设置代码块和表格的格式
  • 支持多种语言(尽管大多数测试都是用英语完成的)。有关语言列表,请参阅 settings.py,或添加自己的语言列表。
  • 适用于 GPU、CPU 或 MPS

运行原理:

  • 提取文本,必要时进行 OCR(启发式、镶嵌)
  • 检测页面布局(布局分段器、列检测器)
  • 清理和格式化每个块(启发式、texify)
  • 合并块并后处理完整文本(启发式、pdf_postprocessor)

源代码:https://github.com/VikParuchuri/marker