文本與Python的PDF文件？

Python是否有一個包/庫，允許我打開PDF，並搜索文本中的某些單詞？文本與Python的PDF文件？

2009-11-04 sepiroth

使用PyPdf2您可以使用extractText()方法來提取pdf文本並對其進行處理。

更新：更改文本以引用PyPdf2，感謝@Aditya Kumar的支持。

2009-11-04 07:39:34 ismail

@cartman：你有什麼想法如何處理PyPdf不在行間放置空格的事實？例如，如果pdf中的一行表示'hello'，然後下一行表示'world'，那麼我提取出的文本是'helloworld'而不是'hello world'，哪種殺死任何文本挖掘... – sepiroth 2009-11-04 08:24:43

如果我記得沒錯，PyPdf在一些PDF中讀取一些換行符爲'\ x00'。 – PhilS 2009-11-04 08:53:04

pyPdf的+1：這是一個非常方便的模塊，即使有點過時了2.6（源代碼無論如何，只是一些改編）。 – RedGlyph 2009-11-04 09:27:07

我不認爲你可以一步完成，但你肯定可以通過pdfminer獲得pdf文本。然後，您可以將任何文本搜索應用於恢復的數據。

來源

2009-11-04 07:38:39 shylent

文本與Python的PDF文件？

回答

相關問題