0
驚喜!我有另一個Apache Nutch v1.5問題。因此,在通過Nutch將我們的網站抓取並索引到Solr時,我們需要能夠排除任何屬於特定路徑的內容。Nutch - 爲什麼我的網址排除不排除這些網址?
所以說,我們有我們的網站:http://oursite.com/
,我們有我們不希望指數http://oursite.com/private/
的路徑我在seed.txt
文件http://oursite.com/
和+^http://www.oursite.com/([a-z0-9\-A-Z]*\/)*
在regex-urlfilter.txt
文件
我想在regex-urlfilter.txt
文件中放入:-.*/private/.*
也會排除該路徑及其下的任何內容,但抓取程序仍然在/private/
路徑下獲取和索引內容。
是否有某種類型的重啓我需要在服務器上完成,比如Solr?或者,我的正則表達式實際上不是正確的方法嗎?
感謝