Q

如何從PDF中抓取信息？

2011-12-16 124 views 1 likes

1

我正在使用Mozenda（Mozenda.com）來抓取在線數據庫，但其中一些數據是PDF文件。 Mozenda似乎不支持抓取這些文件，所以我正在尋找另一種解決方案。如何從PDF中抓取信息？

有兩個問題...

什麼是適當的XPath語法選擇從鏈接的網址？目前尚不清楚如何使用Mozenda來做到這一點，並且PDF地址是實施第三方解決方案所必需的。
什麼是將大量PDF在線轉換爲 html的好工具，或者更好的辦法是刮掉它們？

任何有用的建議是非常值得讚賞的。我很高興澄清......只是問。

2011-12-16 user1043070

A

回答

0

使用mozenda本身可以創建xpath。創建任何操作>優化操作>放置。在Xpath中，並從CaptureDefination獲取所需數據。

2012-02-15 10:35:34

1

我認識到這是一個較遲的答案，但Mozenda增加了將PDF轉換爲HTML並從中刪除的能力。這很容易。

https://www.mozenda.com/faqs

2014-07-17 16:25:35 TravisChambers

相關問題