Markdown格式转换开源工具-Marker
Marker是一款能够快速将 PDF、EPUB 和 MOBI 文档转换成 Markdown 格式的开源工具。基于Python编写,遵守GPL3.0开源协议。
功能特色:
- 支持一系列 PDF 文档(针对书籍和科学论文进行了优化)
- 删除页眉/页脚/其他工件
- 将大多数方程转换为Latex
- 设置代码块和表格的格式
- 支持多种语言(尽管大多数测试都是用英语完成的)。有关语言列表,请参阅 settings.py,或添加自己的语言列表。
- 适用于 GPU、CPU 或 MPS
运行原理:
- 提取文本,必要时进行 OCR(启发式、镶嵌)
- 检测页面布局(布局分段器、列检测器)
- 清理和格式化每个块(启发式、texify)
- 合并块并后处理完整文本(启发式、pdf_postprocessor)
源代码:https://github.com/VikParuchuri/marker
发表回复