以類似於Google bot的方式抓取網站html和javascript

-1

我試圖通過以下所有內部鏈接自動抓取給定的網站，做到這一點我一直在玩蟒蛇mechanize庫，雖然這不允許我使用JavaScript和ajax內容。以類似於Google bot的方式抓取網站html和javascript

谷歌機器人和其他主要搜索引擎蜘蛛/機器人如何做到這一點，是否有另一種工具可以補充mechanize在這種情況下？

我知道我可以反向工程的JavaScript來找出它做什麼和他們模仿，但我想自動爬行，所以它不會實際，如果我第一次必須通過每個網站的JavaScript梳理。

2013-12-14 sam

爲了實現這種大蜘蛛，還有就是一些問題實現它之前要解決：

只是想按照自動頁面中的所有鏈接？
這很簡單。當您獲取一個頁面時，解析它並獲取所有<a>標籤中的href值，然後發出這些新的url的請求。
如果您不想對其進行硬編碼，那麼的scrapy將自動完成該工作。使用requests和lxml也很容易完成這項工作。
這是一個簡單的問題來解決。
想要解析javascript語句嗎？
這是一個很大的問題，但還有是用一些很好的工具，如PhantomJS和similar，QtWebKit的和硒。
我不知道Google如何處理這個問題，但另一種先進的方法是修改Chromium或Firefox的核心。這有點困難，但可能會在很大程度上提高蜘蛛的效率。
你有什麼目的來實現這樣的蜘蛛？
抓取頁面來做Google這樣的搜索引擎？抓取一些文章，書籍或視頻供個人使用？當你知道你想用蜘蛛做什麼時，你就知道如何實現它。

爬網時存在一些問題，它可能會幫助您實現強大的蜘蛛。 Here它是。

2013-12-14 01:47:37 flyer

回答