我正在使用Mozenda(Mozenda.com)來抓取在線數據庫,但其中一些數據是PDF文件。 Mozenda似乎不支持抓取這些文件,所以我正在尋找另一種解決方案。如何從PDF中抓取信息?
有兩個問題...
什麼是適當的XPath語法選擇從 鏈接的網址?目前尚不清楚如何使用Mozenda來做到這一點,並且PDF地址 是實施第三方解決方案所必需的。
什麼是將大量PDF在線轉換爲 html的好工具,或者更好的辦法是刮掉它們?
任何有用的建議是非常值得讚賞的。我很高興澄清......只是問。
我正在使用Mozenda(Mozenda.com)來抓取在線數據庫,但其中一些數據是PDF文件。 Mozenda似乎不支持抓取這些文件,所以我正在尋找另一種解決方案。如何從PDF中抓取信息?
有兩個問題...
什麼是適當的XPath語法選擇從 鏈接的網址?目前尚不清楚如何使用Mozenda來做到這一點,並且PDF地址 是實施第三方解決方案所必需的。
什麼是將大量PDF在線轉換爲 html的好工具,或者更好的辦法是刮掉它們?
任何有用的建議是非常值得讚賞的。我很高興澄清......只是問。
使用mozenda本身可以創建xpath。創建任何操作>優化操作>放置。在Xpath中,並從CaptureDefination獲取所需數據。
我認識到這是一個較遲的答案,但Mozenda增加了將PDF轉換爲HTML並從中刪除的能力。這很容易。