2011-10-29 239 views
2

使用Nutch,我想抓取所有http://www.amazon.com/網頁,其ipod在他們的網址。nutch:用關鍵詞搜索

對於e.g如果我在他們的搜索框進行搜索的ipod,我得到

http://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=ipod&x=0&y=0

本網頁顯示一堆的iPod鏈接。我想抓取每個與ipod相關的鏈接並獲取它。

下的搜索結果中顯示的第一個環節是

http://www.amazon.com/Apple-iPod-touch-8GB-Generation/dp/B001FA1O0O/ref=sr_1_1?ie=UTF8&qid=1319863311&sr=8-

我應該低於使用?

+^http://([a-z0-9\-A-Z]*\.)*www.amazon.com/*ipod* 

回答

0

如果你想抓取這個特定的網址,你應該包括以下行爬行,urlfilter.txt

-.* 

此命令將排除所有其他網址了!

+0

您可以添加一些鏈接,在這裏給出更多的信息。 – Narendra