2015-09-05 207 views
1

我使用this script來抓取一些購物網站。我有一個很大的問題,使這個劇本和其他任何對我毫無價值的東西。node-simplecrawler:ajaxed內容網頁抓取問題

我們正計劃抓取一個名爲digikala(www.digikala.com)的購物網站。問題在於主要產品網格從AJAX調用中加載其數據。

例如,此網頁:http://www.digikala.com/Search/Category-Mobile-Phone/#!/Brand-10/Category-Electronic-Devices/Category-Mobile/Category-Mobile-Phone/

如果你看到你的螢火/開發者控制檯,您將看到這一類的產品網格是一個Ajax調用後加載後。那麼我怎樣才能抓取這個產品頁面呢?

在獲取頁面之前添加一些等待(例如10秒)將解決該問題?

+0

回購問題鏈接:https://github.com/cgiffard/node-simplecrawler/issues/159 –

回答

0

選項1:使用瀏覽器模擬,如吸phantomjs,

選項2:從結帳的開發工具的一個AJAX網址,直接從URL獲取數據。要小心,可能需要特殊的標題,或某種驗證。