前言

很多文件为了安全都会存成pdf格式,如论文、技术文档、书籍等,而通过程序从pdf文档中提取对应的文本内容比较麻烦。在Python中,用于解析pdf文件的扩展包有很多,常用的有pdfminer3k、PyPDF2、Camelot、pdfplumber等。本文主要介绍如何使用pdfplumber库来解析pdf文件。

pdfplumber最适合提取电脑生成的pdf,而不是扫描出来的pdf。它是在pdfminer和pdfminer.six的基础上设计的。