0
我正在下載本網站的完整存檔文件(http://www.afghanislamicpress.com/)。刮掉一個網站,所有的數據都被鎖定在XML數據庫中?
我嘗試使用DeepVacuum(http://www.hexcat.com/deepvacuum/index.html),但該網站是動態的(我認爲這是正確的詞)。
因此,您提交了一個可以提供文章存檔的表單,但它一次只能分析出5個(即每個頁面),然後您必須點擊。我想下載完整數據集的所有單個文章,但不想手動點擊。
我知道有一些簡單的方法來做到這一點,但不完全知道如何。
對於新手在做數據抓取等任何建議?
你知道任何編程語言嗎?你有沒有考慮聘請某人? – pguardiario