2
我們可以使用海葵爬網(如:https://stackoverflow.com/
),但如果我只想專注於某個文件夾(例如:https://stackoverflow.com/questions
),該怎麼辦?我怎樣才能做到這一點 ?也許用「focus_crawl」方法?如何只使用海葵抓取子文件夾
我們可以使用海葵爬網(如:https://stackoverflow.com/
),但如果我只想專注於某個文件夾(例如:https://stackoverflow.com/questions
),該怎麼辦?我怎樣才能做到這一點 ?也許用「focus_crawl」方法?如何只使用海葵抓取子文件夾
檢查keep_if方法可能是這有助於
http://danneu.com/posts/8-scraping-a-blog-with-anemone-ruby-web-crawler-and-mongodb#toc_1
嘗試,只要你想爬
也有一個要點https://gist.github.com/1149906傳遞模式。
注:我沒有測試過,但你可以肯定試試。
謝謝PriteshJ,但我終於找到了答案。我使用'on_pages_like'而不是'on_every_page'這樣的模式:'on_pages_like(/ http:\/\/stackoverflow.com \/questions \ /。)',它運行良好。再次感謝你 – 2012-08-08 18:03:57
然後我建議你給這個問題添加自己的答案,並將其標記爲已接受。 :) – PriteshJ 2012-08-08 18:12:36