2013-07-18 32 views
1

我有一些PDF電子表格,並且想從每個電子表格中提取數據,將其存儲爲類似於2d字符串列表的東西;基本上是以一種可以在我的代碼中索引和使用的對象的形式從PDF重新創建表格/電子表格。 PDFMiner是實現這種目標的最佳選擇嗎?如果從表格/電子表格中提取可以基於單元格以某種方式完成,而不是尋找空格,那將是非常好的,因爲它經常發生表格在不同位置具有空單元。將PDF電子表格數據提取到Python數據結構中

回答

3

首先是容易的部分:是的,PDFMiner可能:-)

您最好的選擇「可能」在前面的句子應該給你一個提示... PDF提取可以是一種黑魔法;一切都取決於你的PDF文件的格式/可預測性。

如果幸運的話,最快捷的解決方案可能是使用已建立的工具將PDF轉換爲其他可以輕鬆解析的格式(HTML會想到),然後從中提取表格。實際上,這正是pdftable所做的...

有時這可能不起作用,並且您需要使用頁面中的視覺線索來劃分表格單元格。在這種情況下,pdfminer派上用場。它可以告訴你所有的文本所在的位置,並且像PostScript渲染器一樣可以「繪製」其他提取工具看不到的線條。 This blog post解釋了你如何去做這件事。

相關問題