Nutch 1.2 - 爲什麼不能用查詢字符串抓取url？

我是Nutch的新手，不確定這裏發生了什麼。我運行nutch並抓取我的網站，但似乎忽略了包含查詢字符串的URL。我註釋掉在爬網urlfilter.txt頁的過濾器，以便它看起來像現在這樣：Nutch 1.2 - 爲什麼不能用查詢字符串抓取url？

# skip urls with these characters 
#-[] 

#skip urls with slash delimited segment that repeats 3+ times 
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/

所以，我想我已經有效地清除任何過濾器，所以我告訴Nutch的接受所有URL它發現在我的網站上。

有沒有人有任何建議？或者這是nutch 1.2中的一個錯誤？我應該升級到1.3，這會解決我遇到的這個問題嗎？或者我做錯了什麼？

2011-08-12 Robbiegod

第一個「編輯」應該回答你的問題。

2011-08-15 14:16:53 mana

默認情況下，抓取工具不應該使用查詢字符串來抓取鏈接，以避免垃圾郵件和僞造的搜索引擎。

2013-08-20 12:49:58 orezvani

# skip URLs containing certain characters as probable queries, etc. 
#-[?*[email protected]=]

你要發表評論，或修改爲：

# skip URLs containing certain characters as probable queries, etc. 
-[*[email protected]]

2016-09-23 11:17:14 Abhishek

回答