2009-11-08 204 views
2

我該如何打開一個PDF文件並用Python讀取它的一些內容(這種語言是首選的,但是Ruby,Perl或PHP也可以)(如果它被識別(而不僅僅是一個圖像))或報告它是沒有OCR是不可能的? TIA如何打開PDF並閱讀它?

更新:感謝您的解決方案,我相信其中一些將適合我。

@RichH,我有一個pdf文件,不知道它是基於圖像還是文本。我正在尋找一種工具來幫助我發現這種情況,並在基於文本的情況下提取其中的一些內容。

+0

他們是圖像的PDF文件或文本的PDF文件(你可以通過嘗試文本進行復制查出手動)?你想讀什麼?文本?圖片?佈局?你可能也想重新回答你的問題 - 我不明白下半場。 – RichH 2009-11-08 20:07:55

+1

此鏈接可以幫助您:http://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text。它是'它'的內容;-) – RedGlyph 2009-11-08 20:13:25

+0

你可能會發現this線程有用。 – jkndrkn 2009-11-08 20:04:49

回答

1

對PDF進行解析並使之變得有用很困難,因爲格式的重點在於保持佈局,因此可以按照每個字母單獨放置的方式存儲文本,具體取決於文本可能也存儲爲圖形。

圖書館閱讀PDF文件,我知道包括具有PDF component,其中包括一個PDF解析器可以從PHP使用,並給出了或多或少usaable結果和商業PDFlib它提供了非常有用的結果,並提供綁定到不同的Zend框架語言。