0
這是我的代碼 - 禮貌 - http://code.activestate.com/recipes/511465-pure-python-pdf-to-text-converter/。 我修改它以包含PyPDF的下一個版本。使用PyPDF2讀取PDF不會產生任何結果
import PyPDF2
def getPDFContent(path):
content = ""
# Load PDF into pyPDF
pdf = PyPDF2.PdfFileReader(file(path, "rb"))
# Iterate pages
print "Number of pages is ", pdf.getNumPages()
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + "\n"
print (content)
# Collapse whitespace
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
print getPDFContent("RL.pdf").encode("ascii", "xmlcharrefreplace")
我正在閱讀的文件在這裏。 http://dmc.kar.nic.in/RL.pdf
我得到的就是這個。
頁數是1 此後空白。
這是PDF問題還是我在某處出錯? 所有幫助表示感謝!
什麼是'文件'?你可能打算在這裏使用'open'。 –
試圖改變它打開。同樣的結果。 – Guru