5
我已經嘗試過使用pyPdf和pdfMiner從pdf文件中提取文本。我有一些不友好的pdf,只有pdfMiner能夠成功提取。我正在使用代碼here來提取整個文件的文本。但是,我真的很想在每頁基礎上提取文本,如pyPdf中的getPage(i).extractText()
功能。有誰知道如何使用pdfMiner每頁提取文本?用Python pdfMiner每頁提取文本?
我已經嘗試過使用pyPdf和pdfMiner從pdf文件中提取文本。我有一些不友好的pdf,只有pdfMiner能夠成功提取。我正在使用代碼here來提取整個文件的文本。但是,我真的很想在每頁基礎上提取文本,如pyPdf中的getPage(i).extractText()
功能。有誰知道如何使用pdfMiner每頁提取文本?用Python pdfMiner每頁提取文本?
for pageNumber, page in enumerate(PDFDocument.get_pages()):
if pageNumber == 42:
#do something with the page
有一篇不錯的文章here。
有人可以詳細說明嗎?由於沒有任何文檔,我在使用pdfminer時遇到了很大的麻煩。 – Jazcash
對於哪個版本的pdfminer'代碼工作? –
這似乎與目前的* pdfminer *(編寫20140328的時間)有關。 –