2017-06-06 66 views
0

我想讀一個pdf文件是在以下格式 -如何閱讀使用python熊貓的表格格式的pdf文件?

data.pdf

 Jan1 Jan2 Jan3 Jan4 Jan5 total 
ABC 1.0 2.0 3.0 4.0 5.0 15.0 
PQR 1 2 3 4 5 15 
XYZ 2 2 2 2 2 10 

我試圖使用python大熊貓讀取該文件,但我沒有得到任何成功然而。其實我想CSV格式的文件轉換像下面 -

output.csv

names,Jan1,Jan2,Jan3,Jan4,Jan5,total 
ABC,1.0,2.0,3.0,4.0,5.0,15.0 
PQR,1,2,3,4,5,15 
XYZ,2,2,2,2,2,10 

我已經嘗試過用pdfminer但沒有得到任何的成功。它的html輸出只給了我空白頁面。

他們有沒有辦法使用python熊貓閱讀pdf文件,或者我們可以將pdf轉換爲任何格式,然後使用python熊貓來閱讀它?

+0

在這種情況下,pdfminer一定很有用!你能否提供你迄今爲止所嘗試過的?和樣本pdf文件 – DexJ

回答

0

如果您已經安裝塔布拉則:

from tabula import read_pdf 
data = read_pdf('data.pdf') 

,那麼你可以打印你的數據

print (df) 

我希望這會幫助你!

+0

@ bikuser- tabula將無法讀取列標題。它會將第一行視爲列標題。 – kit