99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁(yè)大數(shù)據(jù)時(shí)代不會(huì)用Python提取PDF表格？三種類型數(shù)據(jù)，輕松轉(zhuǎn)換

不會(huì)用Python提取PDF表格？三種類型數(shù)據(jù)，輕松轉(zhuǎn)換

2021-03-22

來(lái)源：早起Python

作者：自動(dòng)化工作組

大家好，從PDF中提取信息是辦公場(chǎng)景中經(jīng)常需要用到的操作，也是經(jīng)常又讀者在后臺(tái)問(wèn)的一個(gè)操作。

內(nèi)容少的話我們可以手動(dòng)復(fù)制粘貼，但如果需要批量提取就可以考慮使用Python，之前我也轉(zhuǎn)載過(guò)相關(guān)文章，提到主要就是使用pdfplumber庫(kù)，今天我們?cè)俅闻e例講解。

通常PDF里的表格分為圖片型和文本型。文本型又分簡(jiǎn)單型和復(fù)雜型。本文就針對(duì)這三部分舉例講解。

提取簡(jiǎn)單型表格提取較為復(fù)雜型表格提取圖片型表格

不會(huì)用Python提取PDF表格？三種類型數(shù)據(jù)，輕松轉(zhuǎn)換

用到的模塊主要有

pdfplumberpandasTesseractPIL

文中出現(xiàn)的PDF材料是在巨潮資訊官網(wǎng)下載的公開PDF文件，主題是關(guān)于理財(cái)?shù)?，相關(guān)發(fā)布信息等信息如下：

內(nèi)容總共有6頁(yè)，后文中的例子會(huì)有展示。

一、簡(jiǎn)單文本類型數(shù)據(jù)

簡(jiǎn)單文本類型表格就是一頁(yè)P(yáng)DF中只有一個(gè)表格，并且表格內(nèi)容完整可復(fù)制，例如我們選定內(nèi)容為PDF中的第四頁(yè)，內(nèi)容如下：

可以看到，該頁(yè)只有一個(gè)表格，下面我們將這個(gè)表寫入Excel中，先上代碼

import pdfplumber as pr
import pandas as pd
pdf = pr.open('關(guān)于使用自有資金購(gòu)買銀行理財(cái)產(chǎn)品的進(jìn)展公告.PDF')
ps = pdf.pages
pg = ps[3]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df1.to_excel('page2.xlsx')

得到的結(jié)果如下：

通過(guò)與PDF上原表格對(duì)比，在內(nèi)容上是完全一致的，唯一不同的是由于主營(yíng)業(yè)務(wù)內(nèi)容較多，導(dǎo)致顯示的不全面，現(xiàn)在來(lái)說(shuō)說(shuō)這段代碼。

首先導(dǎo)入要用到的兩個(gè)庫(kù)。在pdfplumber中，open()函數(shù)是用來(lái)打開PDF文件，該代碼用的是相對(duì)路徑。.open().pages則是獲取PDF的頁(yè)數(shù)，打印ps值可以得到如下

pg = ps[3]代表的就是我們所選的第三頁(yè)。

pg.extract_tables()：可輸出頁(yè)面中所有表格，并返回一個(gè)嵌套列表，其結(jié)構(gòu)層次為table→row→cell。此時(shí)，頁(yè)面上的整個(gè)表格被放入一個(gè)大列表中，原表格中的各行組成該大列表中的各個(gè)子列表。若需輸出單個(gè)外層列表元素，得到的便是由原表格同一行元素構(gòu)成的列表。

與其類似的是pg.extract_table( )：返回多個(gè)獨(dú)立列表，其結(jié)構(gòu)層次為row→cell。若頁(yè)面中存在多個(gè)行數(shù)相同的表格，則默認(rèn)輸出頂部表格；否則，僅輸出行數(shù)最多的一個(gè)表格。此時(shí)，表格的每一行都作為一個(gè)單獨(dú)的列表，列表中每個(gè)元素即為原表格的各個(gè)單元格內(nèi)容。

由于該頁(yè)面中只有一個(gè)表格，我們需要tables集合中的第一個(gè)元素。打印table值，如下：

可以看到在上述中是存在n這種沒(méi)不要的字符，它的作用其實(shí)是換行但我們?cè)贓xcel中是不需要的。所以需要剔除它，用代碼中的for循環(huán)與replace函數(shù)將控制替換成空格(即刪除n)。觀察table是一個(gè)裝有2個(gè)元素的列表。

最后df1 = pd.DataFrame(table[1:],columns = table[0])這段代碼的作用就是創(chuàng)建一個(gè)數(shù)據(jù)框，將內(nèi)容放到對(duì)應(yīng)的行列中。

本代碼只是簡(jiǎn)單將數(shù)據(jù)存入到Excel，如果你需要進(jìn)一步對(duì)樣式進(jìn)行調(diào)整，可以使用openpyxl等模塊進(jìn)行修改，具體可以看之前文章Python操作Excel詳解

二、復(fù)雜型表格提取

復(fù)雜型表格即表格樣式不統(tǒng)一或一頁(yè)中有多個(gè)表格，以PDF中的第五頁(yè)為例：

可以看到本頁(yè)中有兩個(gè)大的表格，并且細(xì)看的話，其實(shí)是4個(gè)表格，按照簡(jiǎn)單型表格類型提取方法，得到的效果如下：

可以看到，只是將全部表格文本提取出來(lái)，但實(shí)際上第一個(gè)表格又細(xì)分為兩個(gè)表，所以需要我們進(jìn)一步修改，將這張表再次拆分！例如提取上半部分代碼如下：

import pdfplumber as pr
import pandas as pd
pdf = pr.open('關(guān)于使用自有資金購(gòu)買銀行理財(cái)產(chǎn)品的進(jìn)展公告.PDF')
ps = pdf.pages
pg = ps[4]
tables = pg.extract_tables() table = tables[0] print(table)
df = pd.DataFrame(table[1:],columns = table[0]) for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df2 = df1.iloc[2:,:]
df2 = df2.rename(columns = {"2019年12月31日":"2019年1-12月","2020年9月30日":"2020年1-9月"})
df2 = df2.loc[3:,:]
df1 = df1.loc[:1,:]
with pd.ExcelWriter('公司影響.xlsx') as i:
    df1.to_excel(i,sheet_name='資產(chǎn)', index=False, header=True) #放入資產(chǎn)數(shù)據(jù)
    df2.to_excel(i,sheet_name='營(yíng)業(yè)',index=False, header=True) #放入營(yíng)業(yè)數(shù)據(jù)

這段代碼在簡(jiǎn)單型表格提取的基礎(chǔ)上進(jìn)行了修改，第十四行代碼的作用就是提取另外一個(gè)表頭的信息，并將他賦值給df2，而后對(duì)df2進(jìn)行重命名操作(用到rename函數(shù))。

打印df2可以看出columns列名和第一行信息重復(fù)了，因此我們需要重復(fù)剛剛的步驟，利用loc()函數(shù)切割數(shù)據(jù)框。

注意，我們這里用了罕見的pandas.Excelwriter函數(shù)套for循環(huán)，這個(gè)是為了避免直接寫入導(dǎo)致的最后數(shù)據(jù)覆蓋原數(shù)據(jù)，感興趣可以嘗試一下不用withopen這種方法后結(jié)果。最終得到的效果如下：

可以看到，現(xiàn)在這個(gè)表格就被放在兩個(gè)sheet中單獨(dú)展示，當(dāng)然用于對(duì)比放在一張表中也是可以的

說(shuō)到底復(fù)雜型表格的主觀性是非常大的，需要根據(jù)不同情況進(jìn)行不同處理，想寫出一個(gè)一勞永逸的辦法是比較困難的！

三、圖片型表格提取

最后也是最難處理的就是圖片型表格，經(jīng)常有人會(huì)問(wèn)如何提取圖片型PDF中的表格/文本等信息。

其實(shí)本質(zhì)上就是提取圖片，之后如何對(duì)圖片進(jìn)一步處理提取信息就與Python提取PDF表格這個(gè)主題沒(méi)有太大關(guān)系了！

這里我們也簡(jiǎn)單進(jìn)行介紹，也就是先提取圖片再進(jìn)行OCR識(shí)別提取表格，在Python中可以使用Tesseract庫(kù)，首先需要pip安裝

pip install pytesseract

在Python中安裝完這個(gè)庫(kù)之后我們需要安裝exe文件以在后面代碼用到。

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下載安裝完即可，注意目前如果按照正常步驟安裝的話是不會(huì)識(shí)別中文的，所以需要安裝簡(jiǎn)體中文語(yǔ)言包，下載地址為https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata，將其放到Tesseract-OCR的tessdata目錄下即可。

接下來(lái)我們使用一個(gè)簡(jiǎn)單的圖片型pdf如下：

第一步，提取圖片，這里使用在GUI辦公自動(dòng)化系列中的圖片提取軟件來(lái)提取PDF中的圖片，得到如下圖片：

接著執(zhí)行下方代碼識(shí)別圖片內(nèi)容：

import pytesseract from PIL import Image import pandas as pd
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe' tiqu = pytesseract.image_to_string(Image.open('圖片型.jpg')) print(tiqu)
tiqu = tiqu.split('n') while '' in tiqu:    #不能使用for   tiqu.remove('')
  first = tiqu[:6]
  second = tiqu[6:12]
  third =  tiqu[12:]
  df = pd.DataFrame()
  df[first[0]] = first[1:]
  df[second[0]] = second[1:]
  df[third[0]] = third[1:] #df.to_excel('圖片型表格.xlsx')  #轉(zhuǎn)為xlsx文件

我們的思路是用Tesseract-OCR來(lái)解析圖片，得到一個(gè)字符串，接著對(duì)字符串運(yùn)用split函數(shù)，把字符串變成列表同時(shí)刪除n。

接著可以發(fā)現(xiàn)我們的列表里還存在空格，這時(shí)我們用while循環(huán)來(lái)刪除這些空字符，注意，這里不能用for循環(huán)，因?yàn)槊看蝿h除一個(gè)，列表里的元素就會(huì)前進(jìn)一個(gè)，這樣會(huì)刪不完全。最后就是用pandas把這些變成數(shù)據(jù)框形式。最終得到的效果如下：

可以看到，該圖片型表格內(nèi)容被完美解析與處理！當(dāng)然能輕松搞定的原因也與這個(gè)表格足夠簡(jiǎn)單有關(guān)，在真實(shí)場(chǎng)景中的圖片可能會(huì)有更復(fù)雜的干擾因素，而這就需要大家在處理的同時(shí)自行找到一個(gè)最合適的辦法！

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫(kù)，點(diǎn)擊>>> “CDA題庫(kù)” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

DataFrame pandas

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼，搜微信號(hào)：CDAshujufenxi

上一篇上班假裝很忙，下班唬妹子的幾個(gè)神器，人人都能用

下一篇推薦2款必備的Django開發(fā)神器

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號(hào) 經(jīng)營(yíng)許可證編號(hào)：京B2-20210330

聯(lián)系電話：13321103290 (微信同號(hào))

CDA教材
CDA題庫(kù)
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊(cè)

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

不會(huì)用Python提取PDF表格？三種類型數(shù)據(jù)，輕松轉(zhuǎn)換

一、簡(jiǎn)單文本類型數(shù)據(jù)

二、復(fù)雜型表格提取

三、圖片型表格提取

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營(yíng)銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問(wèn)題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

不會(huì)用Python提取PDF表格？三種類型數(shù)據(jù)，輕松轉(zhuǎn)換

一、簡(jiǎn)單文本類型數(shù)據(jù)

二、復(fù)雜型表格提取

三、圖片型表格提取

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營(yíng)銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問(wèn)題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

不會(huì)用Python提取PDF表格？三種類型數(shù)據(jù)，輕松轉(zhuǎn)換

一、簡(jiǎn)單文本類型數(shù)據(jù)

三、圖片型表格提取

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...