2013-01-14 14 views
0

我正在下載本網站的完整存檔文件(http://www.afghanislamicpress.com/)。刮掉一個網站,所有的數據都被鎖定在XML數據庫中?

我嘗試使用DeepVacuum(http://www.hexcat.com/deepvacuum/index.html),但該網站是動態的(我認爲這是正確的詞)。

因此,您提交了一個可以提供文章存檔的表單,但它一次只能分析出5個(即每個頁面),然後您必須點擊。我想下載完整數據集的所有單個文章,但不想手動點擊。

我知道有一些簡單的方法來做到這一點,但不完全知道如何。

對於新手在做數據抓取等任何建議?

+0

你知道任何編程語言嗎?你有沒有考慮聘請某人? – pguardiario

回答

1

最直接的解決方案是聯繫網站的所有者,並要求他們許可重新發布他們的文章,並要求數字副本。

您當然可以自動下拉分頁的內容,但需要一些編程工作。該imho的最佳工具是HTML Agility Pack

請確定並遵守您下載內容的版權和許可條款。