Python 提取 PDF 表格，三种类型数据转换成 Excel

大家好，从PDF中提取信息是办公场景中经常需要用到的操作，也是经常又读者在后台问的一个操作。

内容少的话我们可以手动复制粘贴，但如果需要批量提取就可以考虑使用Python，之前我也转载过相关文章，提到主要就是使用pdfplumber库，今天我们再次举例讲解。

通常PDF里的表格分为图片型和文本型。文本型又分简单型和复杂型。本文就针对这三部分举例讲解。

提取简单型表格
提取较为复杂型表格
提取图片型表格

用到的模块主要有

pdfplumber
pandas
Tesseract
PIL

文中出现的PDF材料是在巨潮资讯官网下载的公开PDF文件，主题是关于理财的，相关发布信息等信息如下：

内容总共有6页，后文中的例子会有展示。

一、简单文本类型数据

简单文本类型表格就是一页PDF中只有一个表格，并且表格内容完整可复制，例如我们选定内容为PDF中的第四页，内容如下：

可以看到，该页只有一个表格，下面我们将这个表写入Excel中，先上代码

import pdfplumber as pr
import pandas as pd
pdf = pr.open('关于使用自有资金购买银行理财产品的进展公告.PDF')
ps = pdf.pages
pg = ps[3]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df1.to_excel('page2.xlsx')

得到的结果如下：

通过与PDF上原表格对比，在内容上是完全一致的，唯一不同的是由于主营业务内容较多，导致显示的不全面，现在来说说这段代码。

首先导入要用到的两个库。在pdfplumber中，open()函数是用来打开PDF文件，该代码用的是相对路径。.open().pages则是获取PDF的页数，打印ps值可以得到如下

pg = ps[3]代表的就是我们所选的第三页。

pg.extract_tables()：可输出页面中所有表格，并返回一个嵌套列表，其结构层次为table→row→cell。此时，页面上的整个表格被放入一个大列表中，原表格中的各行组成该大列表中的各个子列表。若需输出单个外层列表元素，得到的便是由原表格同一行元素构成的列表。

与其类似的是pg.extract_table( )：返回多个独立列表，其结构层次为row→cell。若页面中存在多个行数相同的表格，则默认输出顶部表格；否则，仅输出行数最多的一个表格。此时，表格的每一行都作为一个单独的列表，列表中每个元素即为原表格的各个单元格内容。

由于该页面中只有一个表格，我们需要tables集合中的第一个元素。打印table值，如下：

可以看到在上述中是存在\n这种没不要的字符，它的作用其实是换行但我们在Excel中是不需要的。所以需要剔除它，用代码中的for循环与replace函数将控制替换成空格(即删除\n)。观察table是一个装有2个元素的列表。

最后df1 = pd.DataFrame(table[1:],columns = table[0])这段代码的作用就是创建一个数据框，将内容放到对应的行列中。

本代码只是简单将数据存入到Excel，如果你需要进一步对样式进行调整，可以使用openpyxl等模块进行修改。

二、复杂型表格提取

复杂型表格即表格样式不统一或一页中有多个表格，以PDF中的第五页为例：

可以看到本页中有两个大的表格，并且细看的话，其实是4个表格，按照简单型表格类型提取方法，得到的效果如下：

可以看到，只是将全部表格文本提取出来，但实际上第一个表格又细分为两个表，所以需要我们进一步修改，将这张表再次拆分！例如提取上半部分代码如下：

import pdfplumber as pr
import pandas as pd
pdf = pr.open('关于使用自有资金购买银行理财产品的进展公告.PDF')
ps = pdf.pages
pg = ps[4]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df2 = df1.iloc[2:,:]
df2 = df2.rename(columns = {"2019年12月31日":"2019年1-12月","2020年9月30日":"2020年1-9月"})
df2 = df2.loc[3:,:]
df1 = df1.loc[:1,:]
with pd.ExcelWriter('公司影响.xlsx') as i:
    df1.to_excel(i,sheet_name='资产', index=False, header=True) #放入资产数据
    df2.to_excel(i,sheet_name='营业',index=False, header=True) #放入营业数据

这段代码在简单型表格提取的基础上进行了修改，第十四行代码的作用就是提取另外一个表头的信息，并将他赋值给df2，而后对df2进行重命名操作(用到rename函数)。

打印df2可以看出columns列名和第一行信息重复了，因此我们需要重复刚刚的步骤，利用loc()函数切割数据框。

注意，我们这里用了罕见的pandas.Excelwriter函数套for循环，这个是为了避免直接写入导致的最后数据覆盖原数据，感兴趣可以尝试一下不用withopen这种方法后结果。最终得到的效果如下：

可以看到，现在这个表格就被放在两个sheet中单独展示，当然用于对比放在一张表中也是可以的

说到底复杂型表格的主观性是非常大的，需要根据不同情况进行不同处理，想写出一个一劳永逸的办法是比较困难的！

三、图片型表格提取

最后也是最难处理的就是图片型表格，经常有人会问如何提取图片型PDF中的表格/文本等信息。

其实本质上就是提取图片，之后如何对图片进一步处理提取信息就与Python提取PDF表格这个主题没有太大关系了！

这里我们也简单进行介绍，也就是先提取图片再进行OCR识别提取表格，在Python中可以使用Tesseract库，首先需要pip安装

pip install pytesseract

在Python中安装完这个库之后我们需要安装exe文件以在后面代码用到。

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下载安装完即可，注意目前如果按照正常步骤安装的话是不会识别中文的，所以需要安装简体中文语言包，下载地址为https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata，将其放到Tesseract-OCR的tessdata目录下即可。

接下来我们使用一个简单的图片型pdf如下：

第一步，提取图片，这里使用在GUI办公自动化系列中的图片提取软件来提取PDF中的图片，得到如下图片：

接着执行下方代码识别图片内容：

import pytesseract
from PIL import Image
import pandas as pd
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
tiqu = pytesseract.image_to_string(Image.open('图片型.jpg'))
print(tiqu)
tiqu = tiqu.split('\n')
while '' in tiqu:    #不能使用for
  tiqu.remove('')
  first = tiqu[:6]
  second = tiqu[6:12]
  third =  tiqu[12:]
  df = pd.DataFrame()
  df[first[0]] = first[1:]
  df[second[0]] = second[1:]
  df[third[0]] = third[1:]
#df.to_excel('图片型表格.xlsx')  #转为xlsx文件

我们的思路是用Tesseract-OCR来解析图片，得到一个字符串，接着对字符串运用split函数，把字符串变成列表同时删除\n。

接着可以发现我们的列表里还存在空格，这时我们用while循环来删除这些空字符，注意，这里不能用for循环，因为每次删除一个，列表里的元素就会前进一个，这样会删不完全。最后就是用pandas把这些变成数据框形式。最终得到的效果如下：

可以看到，该图片型表格内容被完美解析与处理！当然能轻松搞定的原因也与这个表格足够简单有关，在真实场景中的图片可能会有更复杂的干扰因素，而这就需要大家在处理的同时自行找到一个最合适的办法！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,922评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,591评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,546评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,467评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,553评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,580评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,588评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,334评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,780评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,092评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,270评论 1赞 344
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,925评论 5赞 338
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,573评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,194评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,437评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,154评论 2赞 366
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,127评论 2赞 352

Python 提取 PDF 表格，三种类型数据转换成 Excel

一、简单文本类型数据

二、复杂型表格提取

三、图片型表格提取

推荐阅读更多精彩内容