我是Nutch的新手,不確定這裏發生了什麼。我運行nutch並抓取我的網站,但似乎忽略了包含查詢字符串的URL。我註釋掉在爬網urlfilter.txt頁的過濾器,以便它看起來像現在這樣:Nutch 1.2 - 爲什麼不能用查詢字符串抓取url?
# skip urls with these characters
#-[]
#skip urls with slash delimited segment that repeats 3+ times
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/
所以,我想我已經有效地清除任何過濾器,所以我告訴Nutch的接受所有URL它發現在我的網站上。
有沒有人有任何建議?或者這是nutch 1.2中的一個錯誤?我應該升級到1.3,這會解決我遇到的這個問題嗎?或者我做錯了什麼?