爬行器閱讀pdf

我正在嘗試創建一個可以讀取pdf並從中提取某些信息（保存在數據庫中）的爬蟲。爬行器閱讀pdf

但是，我不確定使用哪種方法/工具。

我最初的想法是使用PhantomJs，但在閱讀很多內容後，似乎並沒有它的功能。如果我想要使用Phantomjs，我將不得不下載PDF，將其轉換爲HTML頁面，然後使用Phantom抓取它，這似乎是一項應該能夠更快完成的枯燥任務。

所以我的問題是，我如何從一個在線來源閱讀pdf並收集這些信息？

2017-09-05 Marc Rasmussen

如果您在編程語言方面不受限制，請考慮使用iText。它可以很容易地從給定的PDF文檔中提取所有文本。它還提供實用的方法來查找文件中的正則表達式，從而爲您提供確切的位置（座標）和匹配的文本。

iText可用於C＃和Java愛好者。

File inputFile = new File(""); 
PdfDocument pdfDocument = new PdfDocument(new PdfReader(inputFile)); 
String content = PdfTextExtractor.getTextFromPage(pdfDocument.getPage(1));

來源

2017-09-05 11:54:17

爬行器閱讀pdf

回答

相關問題