-1
我試圖通過以下所有內部鏈接自動抓取給定的網站,做到這一點我一直在玩蟒蛇mechanize
庫,雖然這不允許我使用JavaScript和ajax內容。以類似於Google bot的方式抓取網站html和javascript
谷歌機器人和其他主要搜索引擎蜘蛛/機器人如何做到這一點,是否有另一種工具可以補充mechanize
在這種情況下?
我知道我可以反向工程的JavaScript來找出它做什麼和他們模仿,但我想自動爬行,所以它不會實際,如果我第一次必須通過每個網站的JavaScript梳理。