PDFMINER工具pdf2txt抓取數據順序

我想從PDF文件中提取數據。我正在使用pdfminer工具pdf2txt將PDF轉換爲純文本。但是生成的文本文件已經搞亂了數據的順序（無論表遇到了什麼，也不管它在哪裏）。然後，我嘗試將cnverting pdf轉換爲html，但是，唉，結果相同。我是python新手......並且我也無法理解pdfminer庫的大量工作。有什麼辦法來保存數據的順序嗎？PDFMINER工具pdf2txt抓取數據順序

來源

2012-07-07 vvy

嘗試用這些額外的參數運行腳本：像你描述-M 30 -W 0.95 -L 0.03

我有同樣的問題，這提高了輸出了很多。但是，使用pdftotext.exe獲得更好的結果，這是xpdf的一部分。在這裏下載：

http://www.foolabs.com/xpdf/download.html

邁克

來源

2012-07-26 00:32:47

PDFMINER工具pdf2txt抓取數據順序

回答

相關問題