5
Python是否有一個包/庫,允許我打開PDF,並搜索文本中的某些單詞?文本與Python的PDF文件?
Python是否有一個包/庫,允許我打開PDF,並搜索文本中的某些單詞?文本與Python的PDF文件?
使用PyPdf2您可以使用extractText()方法來提取pdf文本並對其進行處理。
更新:更改文本以引用PyPdf2,感謝@Aditya Kumar的支持。
我不認爲你可以一步完成,但你肯定可以通過pdfminer獲得pdf文本。然後,您可以將任何文本搜索應用於恢復的數據。
@cartman:你有什麼想法如何處理PyPdf不在行間放置空格的事實?例如,如果pdf中的一行表示'hello',然後下一行表示'world',那麼我提取出的文本是'helloworld'而不是'hello world',哪種殺死任何文本挖掘... – sepiroth 2009-11-04 08:24:43
如果我記得沒錯,PyPdf在一些PDF中讀取一些換行符爲'\ x00'。 – PhilS 2009-11-04 08:53:04
pyPdf的+1:這是一個非常方便的模塊,即使有點過時了2.6(源代碼無論如何,只是一些改編)。 – RedGlyph 2009-11-04 09:27:07