將PDF電子表格數據提取到Python數據結構中

我有一些PDF電子表格，並且想從每個電子表格中提取數據，將其存儲爲類似於2d字符串列表的東西;基本上是以一種可以在我的代碼中索引和使用的對象的形式從PDF重新創建表格/電子表格。 PDFMiner是實現這種目標的最佳選擇嗎？如果從表格/電子表格中提取可以基於單元格以某種方式完成，而不是尋找空格，那將是非常好的，因爲它經常發生表格在不同位置具有空單元。將PDF電子表格數據提取到Python數據結構中

來源

2013-07-18 alh

首先是容易的部分：是的，PDFMiner可能:-)

您最好的選擇「可能」在前面的句子應該給你一個提示... PDF提取可以是一種黑魔法;一切都取決於你的PDF文件的格式/可預測性。

如果幸運的話，最快捷的解決方案可能是使用已建立的工具將PDF轉換爲其他可以輕鬆解析的格式（HTML會想到），然後從中提取表格。實際上，這正是pdftable所做的...

有時這可能不起作用，並且您需要使用頁面中的視覺線索來劃分表格單元格。在這種情況下，pdfminer派上用場。它可以告訴你所有的文本所在的位置，並且像PostScript渲染器一樣可以「繪製」其他提取工具看不到的線條。 This blog post解釋了你如何去做這件事。

來源

2013-07-18 17:24:02 Dirk

將PDF電子表格數據提取到Python數據結構中

回答

相關問題