2009-11-04 47 views

回答

11

使用PyPdf2您可以使用extractText()方法來提取pdf文本並對其進行處理。

更新:更改文本以引用PyPdf2,感謝@Aditya Kumar的支持。

+0

@cartman:你有什麼想法如何處理PyPdf不在行間放置空格的事實?例如,如果pdf中的一行表示'hello',然後下一行表示'world',那麼我提取出的文本是'helloworld'而不是'hello world',哪種殺死任何文本挖掘... – sepiroth 2009-11-04 08:24:43

+0

如果我記得沒錯,PyPdf在一些PDF中讀取一些換行符爲'\ x00'。 – PhilS 2009-11-04 08:53:04

+0

pyPdf的+1:這是一個非常方便的模塊,即使有點過時了2.6(源代碼無論如何,只是一些改編)。 – RedGlyph 2009-11-04 09:27:07

4

我不認爲你可以一步完成,但你肯定可以通過pdfminer獲得pdf文本。然後,您可以將任何文本搜索應用於恢復的數據。