2016-12-14 28 views
1

我使用pdfMiner解析PDF文件,將它作爲我的python腳本中的庫使用。pdfminer - 訪問PDF表

在這些PDF的大部分都有一張表,其中一列被命名爲「公司」。

有沒有辦法: 1)檢測PDF中該表的存在。 2)獲取所有公司名稱(即表格第二列中的所有條目)。

感謝您的幫助 AC

回答

0

我迄今發現的最好的方法是使用HTMLconverter類的pdfminer庫。這使您能夠以HTML格式轉換PDF,並且更容易找出表格,行和列。至少在我的情況下:它可能適用於PDF文件中的各種表格。