2016-01-15 97 views
0

這是我的代碼 - 禮貌 - http://code.activestate.com/recipes/511465-pure-python-pdf-to-text-converter/。 我修改它以包含PyPDF的下一個版本。使用PyPDF2讀取PDF不會產生任何結果

import PyPDF2 

def getPDFContent(path): 
    content = "" 
    # Load PDF into pyPDF 
    pdf = PyPDF2.PdfFileReader(file(path, "rb")) 
    # Iterate pages 
    print "Number of pages is ", pdf.getNumPages() 

    for i in range(0, pdf.getNumPages()): 
     # Extract text from page and add to content 
     content += pdf.getPage(i).extractText() + "\n" 
     print (content) 

    # Collapse whitespace 
    content = " ".join(content.replace(u"\xa0", " ").strip().split()) 
    return content 

print getPDFContent("RL.pdf").encode("ascii", "xmlcharrefreplace") 

我正在閱讀的文件在這裏。 http://dmc.kar.nic.in/RL.pdf

我得到的就是這個。

頁數是1 此後空白。

這是PDF問題還是我在某處出錯? 所有幫助表示感謝!

+0

什麼是'文件'?你可能打算在這裏使用'open'。 –

+0

試圖改變它打開。同樣的結果。 – Guru

回答

0

該文件竟然是腐敗的。

相關問題