使用機械化檢索網站的所有鏈接

如何使用Mechanize庫來查找網站上的所有鏈接？使用機械化檢索網站的所有鏈接

我想要遞歸解析內部鏈接以獲取網站的所有鏈接。

你看過Anemone寶石嗎？它專門爲蜘蛛網站創建。

你可以做這樣的事情抓住並打印網站的所有鏈接：

require 'anemone' 

Anemone.crawl("http://www.example.com/") do |anemone| 
    anemone.focus_crawl { |page| puts page.links } 
end

這是相當不錯的選項記錄的選擇，如果你想蜘蛛的整個側面，排除某些類型的鏈接或排除類似的東西的鏈接。

2012-07-23 14:55:03 Sean

回答