Skip to content

lxulxu/pdf-to-markdown

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

通过PyMuPDF和PADDLE OCR提取PDF中文本、图片和表格创建markdown,基于Python 3.10 64-bit。

效果

安装依赖

  1. 安装PaddlePaddle,参考https://www.paddlepaddle.org.cn/documentation/docs/zh/install/pip/frompip.html

  2. pip install -r requirements.txt

命令行参数

可通过python start.py -h查看

  • -f:单个文件或文件夹路径,仅支持一级目录

例如python start.py -f samples

限制

  • 仅支持中英文(由于PyMuPDF存在问题偶尔会出现乱码)
  • 仅支持单栏布局
  • 不支持页眉和页脚
  • 不支持各种文本样式(包括颜色、加粗、斜体等)

……(其他待发现问题)

About

通过paddle ocr实现pdf转markdown

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages