MarkItDown一款由微软开源的文件转换工具,可将常见文件如 Word、Excel、PPT 等转换为 Markdown 格式,支持 OCR 和 AI 模型处理多媒体文件,提供命令行、Python API 和 Docker 三种使用方式。基于Python编写,遵守MIT开源协议。

目前支持转换的格式:

  • PDF
  • PowerPoint
  • Word
  • Excel
  • 图片 (EXIF 信息和OCR)
  • Audio (EXIF 信息和语音稿)
  • HTML
  • Text类文本格式 (CSV, JSON, XML)
  • ZIP文件
  • Youtube URLs
  • EPubs

源代码:https://github.com/microsoft/markitdown