Q

刮掉一個網站，所有的數據都被鎖定在XML數據庫中？

2013-01-14 14 views 0 likes

0

我正在下載本網站的完整存檔文件（http://www.afghanislamicpress.com/）。刮掉一個網站，所有的數據都被鎖定在XML數據庫中？

我嘗試使用DeepVacuum（http://www.hexcat.com/deepvacuum/index.html），但該網站是動態的（我認爲這是正確的詞）。

因此，您提交了一個可以提供文章存檔的表單，但它一次只能分析出5個（即每個頁面），然後您必須點擊。我想下載完整數據集的所有單個文章，但不想手動點擊。

我知道有一些簡單的方法來做到這一點，但不完全知道如何。

對於新手在做數據抓取等任何建議？

2013-01-14 user1978276

+0

你知道任何編程語言嗎？你有沒有考慮聘請某人？ – pguardiario

A

回答

1

最直接的解決方案是聯繫網站的所有者，並要求他們許可重新發布他們的文章，並要求數字副本。

您當然可以自動下拉分頁的內容，但需要一些編程工作。該imho的最佳工具是HTML Agility Pack。

請確定並遵守您下載內容的版權和許可條款。

2013-01-14 19:35:34

相關問題