我有一些PDF電子表格,並且想從每個電子表格中提取數據,將其存儲爲類似於2d字符串列表的東西;基本上是以一種可以在我的代碼中索引和使用的對象的形式從PDF重新創建表格/電子表格。 PDFMiner是實現這種目標的最佳選擇嗎?如果從表格/電子表格中提取可以基於單元格以某種方式完成,而不是尋找空格,那將是非常好的,因爲它經常發生表格在不同位置具有空單元。將PDF電子表格數據提取到Python數據結構中
1
A
回答
3
首先是容易的部分:是的,PDFMiner可能:-)
您最好的選擇「可能」在前面的句子應該給你一個提示... PDF提取可以是一種黑魔法;一切都取決於你的PDF文件的格式/可預測性。
如果幸運的話,最快捷的解決方案可能是使用已建立的工具將PDF轉換爲其他可以輕鬆解析的格式(HTML會想到),然後從中提取表格。實際上,這正是pdftable所做的...
有時這可能不起作用,並且您需要使用頁面中的視覺線索來劃分表格單元格。在這種情況下,pdfminer派上用場。它可以告訴你所有的文本所在的位置,並且像PostScript渲染器一樣可以「繪製」其他提取工具看不到的線條。 This blog post解釋了你如何去做這件事。
相關問題
- 1. 將數據從Excel電子表格提取到Ruby數據庫中
- 2. 如何使用Tabula將PDF表格提取到數據框中
- 3. Google Apps腳本 - 從Gmail中提取數據到電子表格
- 4. 將python中的數據連接到電子表格
- 5. 在Linux中從Excel數據透視表電子表格中提取數據
- 6. 從一個電子表格中提取數據以填充另一個電子表格中的數據框
- 7. 將電子表格數據複製到Oracle數據庫
- 8. 如何將Google電子表格中的數據提取到網站?
- 9. 提取Apache POI中的電子表格列中的數據API
- 10. 將電子表格類型數據從文件存儲到Java中的數據結構中
- 11. 數據表到Excel電子表格
- 12. 從Google電子表格中提取數據
- 13. 如何設置nodeJS以從電子表格中提取數據
- 14. 從Powerpoint Chart的電子表格中提取額外數據
- 15. worksheet.iter_rows()不從電子表格中提取任何數據
- 16. 從電子表格中讀取數據並在Python中構建矩陣
- 17. 從excel電子表格中輸入數據到數據庫中?
- 18. 獲取谷歌電子表格數據
- 19. PDF數據提取
- 20. 將從數據庫中提取的數據列表放入電子郵件中
- 21. 將PDF嵌入到電子表格中
- 22. 從表單提交數據到電子表格表
- 23. 將數據從一個電子表格複製到另一個電子表格從目標中刪除數據
- 24. 從pdf中提取數據
- 25. 從PDF中提取數據
- 26. 將SWT表格數據導出到Excel電子表格
- 27. 將日曆數據提取到電子表格時處理時區
- 28. 使用錯誤的結構OCR從PDF中提取數據
- 29. Facebook的數據到電子表格
- 30. 串行數據到Excel電子表格