使用pdfplumber框架解析pdf,具备提取表格的功能
PDF详细资料
https://smallpdf.com
pdfplumber
对应的github地址:
https://github.com/jsvine/pdfplumber
pdfplumber是在pdfminer的基础上构建的
pdfminer
对应的github地址:
https://github.com/euske/pdfminer
对应文档:
https://euske.github.io/pdfminer/
遇到一个需求:需要将pdf中的表格数据剔除掉,获取到纯文本。
使用pdfplumber可以直接获取到表格中的数据,对应文档具有详细的介绍。
对这需求有一个解决思路,可以使用pdfplumber获取文本所在区域和表格所在区域比较,检查文本所在区域是否在表格区域内来排除表格数据,剩下的就是剔除的数据了。
# 获取所有字符数组,带有位置坐标信息,空格或换行分割成不同的数组
words = page.extract_words()
# 获取所有表格数组,带有位置坐标信息
tabs = page.find_tables()