用海葵爬行子域

我正在使用海葵。我該如何抓取子域名？例如，如果我有網站www.abc.com我的爬蟲應該也爬行support.abc.com或blah.abc.com。我使用Ruby 1.8.7和Rails 3.用海葵爬行子域

爲什麼這是一個Rails或Nokogiri的問題？ – 2012-02-15 18:14:47

我刪除了rails和nokogiri標籤：它們不是這個問題的核心。 – 2012-06-21 16:35:17

這是Github上的一個提交，它解決了您的問題。

更改海葵寶石文件按鏈接。

2012-02-16 22:40:56 sunnyrjuneja

-2

按照Anemone docs你可以通過多個站點到crawl命令：

Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")

當然，你的下一個問題可能會被ABC禁止你的爬行他們的網站，但這是一個不同的問題。

2012-02-15 18:17:37

如果我不知道子域名，該怎麼辦？ – 2012-02-16 06:35:42

如果您不知道子域名，則必須通過搜索從第一個頁面檢索到的鏈接來嘗試找到它們，以查找起始域的其他子域或似乎是兄弟域的網站一。然後產生二次抓取。 – 2012-02-17 18:57:18

回答