2017-09-05 126 views
0

我正在嘗試創建一個可以讀取pdf並從中提取某些信息(保存在數據庫中)的爬蟲。爬行器閱讀pdf

但是,我不確定使用哪種方法/工具。

我最初的想法是使用PhantomJs,但在閱讀很多內容後,似乎並沒有它的功能。如果我想要使用Phantomjs,我將不得不下載PDF,將其轉換爲HTML頁面,然後使用Phantom抓取它,這似乎是一項應該能夠更快完成的枯燥任務。

所以我的問題是,我如何從一個在線來源閱讀pdf並收集這些信息?

回答

1

如果您在編程語言方面不受限制,請考慮使用iText。 它可以很容易地從給定的PDF文檔中提取所有文本。它還提供實用的方法來查找文件中的正則表達式,從而爲您提供確切的位置(座標)和匹配的文本。

iText可用於C#和Java愛好者。

File inputFile = new File(""); 
PdfDocument pdfDocument = new PdfDocument(new PdfReader(inputFile)); 
String content = PdfTextExtractor.getTextFromPage(pdfDocument.getPage(1)); 

查看網站了解更多。 http://developers.itextpdf.com/content/itext-7-examples/itext-7-content-extraction-and-redaction