2012-07-07 39 views
1

我想從PDF文件中提取數據。我正在使用pdfminer工具pdf2txt將PDF轉換爲純文本。但是生成的文本文件已經搞亂了數據的順序(無論表遇到了什麼,也不管它在哪裏)。然後,我嘗試將cnverting pdf轉換爲html,但是,唉,結果相同。我是python新手......並且我也無法理解pdfminer庫的大量工作。有什麼辦法來保存數據的順序嗎?PDFMINER工具pdf2txt抓取數據順序

回答

2

嘗試用這些額外的參數運行腳本:像你描述-M 30 -W 0.95 -L 0.03

我有同樣的問題,這提高了輸出了很多。但是,使用pdftotext.exe獲得更好的結果,這是xpdf的一部分。在這裏下載:

http://www.foolabs.com/xpdf/download.html

邁克