如何只使用海葵抓取子文件夾

我們可以使用海葵爬網（如：https://stackoverflow.com/），但如果我只想專注於某個文件夾（例如：https://stackoverflow.com/questions），該怎麼辦？我怎樣才能做到這一點？也許用「focus_crawl」方法？如何只使用海葵抓取子文件夾

來源

2012-08-08 Ghilas BELHADJ

檢查keep_if方法可能是這有助於

http://danneu.com/posts/8-scraping-a-blog-with-anemone-ruby-web-crawler-and-mongodb#toc_1

嘗試，只要你想爬

也有一個要點https://gist.github.com/1149906傳遞模式。

注：我沒有測試過，但你可以肯定試試。

來源

2012-08-08 17:28:04 PriteshJ

謝謝PriteshJ，但我終於找到了答案。我使用'on_pages_like'而不是'on_every_page'這樣的模式：'on_pages_like（/ http：\/\/stackoverflow.com \/questions \ /。）'，它運行良好。再次感謝你 – 2012-08-08 18:03:57

然後我建議你給這個問題添加自己的答案，並將其標記爲已接受。 :) – PriteshJ 2012-08-08 18:12:36

如何只使用海葵抓取子文件夾

回答

相關問題