2013-05-29 35 views
0

當我們運行爬蟲時,我們會看到類似的靜態文件夾;/cgi-bin,/ images,/ css等popup在搜索器作業中,我們希望將它們排除在爬行(而不是它們最終在索引器中),我們不希望它們在索引器中,但我們如何排除它們在爬蟲,所以它沒有被這些靜態文件夾佔用?任何幫助表示讚賞。它有助於提高性能,排除它們?就像現在我們看到它由於某種原因取回它們一樣。 Nutch爬蟲1.2,Lucene索引器。Apache Nutch crawler如何排除類似靜態文件夾; cgi-bin,圖像,css從nutch爬蟲中排除?

回答

0

將拒絕規則添加到conf/regex-urlfilter.txt文件。

-cgi-bin 
-images 
-css 

請注意,這必須添加之前接受所有規則即。 +.在正則表達式文件中。

+0

感謝您的快速回答,非常感謝。 – user2430823

+0

@ user2430823如果您對答案感到滿意,請註冊並接受答案 –

+0

您好Tejas,對於我遲到的回覆感到抱歉,答案是令人滿意的,但不能upvote ..再次感謝您的幫助,感謝它。 – user2430823