2016-10-27 92 views
1

我正在爲我的PDF數據語料庫開發自定義搜索引擎。使用Python突出顯示PDF中的文本

我有一個轉換層,它能夠將PDF內容轉儲到文本(使用Apache Tika和GROBID)。我已完成搜索圖層和返回搜索結果列表的視圖。

現在,我想在原始PDF上添加突出顯示功能,以查找出現搜索字詞的行。是的,我想修改PDF文件,如果有必要。

有什麼方法可以在PDF文件中突出顯示文本? PDFMiner或PyPDF2或其他Python庫是否能夠做到這一點?

...或者你可以推薦其他的,也許外部服務呢?

回答