使用網頁收集從PDF中提取數據

我如何使用網頁收集從PDF中提取數據？我在頁面中獲取所有相關的PDF url，但我無法從這些Pdf中提取數據。我正在使用Web Harvest version 2.0來提取Pdfs url。請幫忙。使用網頁收集從PDF中提取數據

我如何將pdfcommand收集到網頁中以獲取文本？有沒有其他的方式可以不用運行任何批處理文件？

2014-04-15 user3536614

我認爲網收成是不夠的。你應該使用WGET和pdfbox來獲得你的結果。首先在WGET或Web收穫本身的幫助下，通過您的URL將所有PDF下載到一個文件夾中。然後運行pdfbox命令從PDF獲取文本。您可以從URL http://pdfbox.apache.org/commandline/獲得有關pdfbox的一些知識。你也可以創建一個批處理文件來按順序運行這些東西。

來源

2014-04-16 05:21:15

使用網頁收集從PDF中提取數據

回答

相關問題