2014-04-15 41 views
0

我如何使用網頁收集從PDF中提取數據?我在頁面中獲取所有相關的PDF url,但我無法從這些Pdf中提取數據。我正在使用Web Harvest version 2.0來提取Pdfs url。請幫忙。使用網頁收集從PDF中提取數據

我如何將pdfcommand收集到網頁中以獲取文本?有沒有其他的方式可以不用運行任何批處理文件?

回答

0

我認爲網收成是不夠的。你應該使用WGET和pdfbox來獲得你的結果。首先在WGET或Web收穫本身的幫助下,通過您的URL將所有PDF下載到一個文件夾中。然後運行pdfbox命令從PDF獲取文本。您可以從URL http://pdfbox.apache.org/commandline/獲得有關pdfbox的一些知識。你也可以創建一個批處理文件來按順序運行這些東西。