2013-12-14 34 views
-1

我試圖通過以下所有內部鏈接自動抓取給定的網站,做到這一點我一直在玩蟒蛇mechanize庫,雖然這不允許我使用JavaScript和ajax內容。以類似於Google bot的方式抓取網站html和javascript

谷歌機器人和其他主要搜索引擎蜘蛛/機器人如何做到這一點,是否有另一種工具可以補充mechanize在這種情況下?

我知道我可以反向工程的JavaScript來找出它做什麼和他們模仿,但我想自動爬行,所以它不會實際,如果我第一次必須通過每個網站的JavaScript梳理。

回答

3

爲了實現這種蜘蛛,還有就是一些問題實現它之前要解決:

  • 只是想按照自動頁面中的所有鏈接?
    這很簡單。當您獲取一個頁面時,解析它並獲取所有<a>標籤中的href值,然後發出這些新的url的請求。
    如果您不想對其進行硬編碼,那麼的scrapy將自動完成該工作。使用requestslxml也很容易完成這項工作。
    這是一個簡單的問題來解決。
  • 想要解析javascript語句嗎?
    這是一個很大的問題,但還有是用一些很好的工具,如PhantomJSsimilarQtWebKit的
    我不知道Google如何處理這個問題,但另一種先進的方法是修改Chromium或Firefox的核心。這有點困難,但可能會在很大程度上提高蜘蛛的效率。
  • 你有什麼目的來實現這樣的蜘蛛?
    抓取頁面來做Google這樣的搜索引擎?抓取一些文章,書籍或視頻供個人使用?當你知道你想用蜘蛛做什麼時,你就知道如何實現它。

爬網時存在一些問題,它可能會幫助您實現強大的蜘蛛。 Here它是。