2011-08-12 91 views
0

我是Nutch的新手,不確定這裏發生了什麼。我運行nutch並抓取我的網站,但似乎忽略了包含查詢字符串的URL。我註釋掉在爬網urlfilter.txt頁的過濾器,以便它看起來像現在這樣:Nutch 1.2 - 爲什麼不能用查詢字符串抓取url?

# skip urls with these characters 
#-[] 

#skip urls with slash delimited segment that repeats 3+ times 
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/ 

所以,我想我已經有效地清除任何過濾器,所以我告訴Nutch的接受所有URL它發現在我的網站上。

有沒有人有任何建議?或者這是nutch 1.2中的一個錯誤?我應該升級到1.3,這會解決我遇到的這個問題嗎?或者我做錯了什麼?

回答

0

默認情況下,抓取工具不應該使用查詢字符串來抓取鏈接,以避免垃圾郵件和僞造的搜索引擎。

1
# skip URLs containing certain characters as probable queries, etc. 
#-[?*[email protected]=] 

你要發表評論,或修改爲:

# skip URLs containing certain characters as probable queries, etc. 
-[*[email protected]]