因工作需要,希望快速提取pdf中的文本内容,但是又不想用pdf转换工具(容易乱码),因此搜索了R语言有没有能够实现PDF文本提取的包,发现了pdftools包用来提取pdf指定页码的text文本,分享一下!
#安装包
install.packages("pdftools")
#加载包
library(pdftools)
pdf <- "" #设置文件所在路径并赋值给pdf
###提取pdf中的文本内容
text<- pdf_text(pdf, #PDF路径
opw = "", #打开PDF文件所需密码
upw = "") #同样是密码字符串
text <- text[2] ###[2] 提取对应的页码
write.table(text,file = "text.txt",sep = " ")
亲测效果还不错,如果担心有乱码的话,就运行到
text<- pdf_text(pdf, #PDF路径
opw = "", #打开PDF文件所需密码
upw = "") #同样是密码字符串
这一步,print一下,然后复制粘贴好了,直接导出到word我还不怎么会,有会的小伙伴留言哦!