2012-04-03 60 views
0

如何在python中逐行獲取pdf文件的內容?我已經在stackoverflow搜索,但無法找到任何好的答案。注意:pyPdf給出斷言錯誤,如果可能的話用slate和pdfminer。python pdf逐行

回答

0

命令行:python /path/to/pdf2txt.py -o text.txt /path/to/yourpdf.pdf

然後,您可以只取文本文件,其製造和使用for line in file:

如果你想成爲高效的,你就必須改變pdf2txt.py,並有outfp是一個python iostring,它可以避免製作文件然後從中讀取文件。