2013-07-19 85 views
0

驚喜!我有另一個Apache Nutch v1.5問題。因此,在通過Nutch將我們的網站抓取並索引到Solr時,我們需要能夠排除任何屬於特定路徑的內容。Nutch - 爲什麼我的網址排除不排除這些網址?

所以說,我們有我們的網站:http://oursite.com/,我們有我們不希望指數http://oursite.com/private/

的路徑我在seed.txt文件http://oursite.com/+^http://www.oursite.com/([a-z0-9\-A-Z]*\/)*regex-urlfilter.txt文件

我想在regex-urlfilter.txt文件中放入:-.*/private/.*也會排除該路徑及其下的任何內容,但抓取程序仍然在/private/路徑下獲取和索引內容。

是否有某種類型的重啓我需要在服務器上完成,比如Solr?或者,我的正則表達式實際上不是正確的方法嗎?

感謝

回答

1

我的猜測是,URL由第一正則表達式接受,第二個是不再進行檢查。如果您想拒絕網址,請將其正則表達式首先放入列表中。