2016-02-17 95 views
0

我使用Nutch的1.9和Solr 4.10。我希望避免域www.aaa.com在Nutch的和Solr的Nutch和Solr索引黑名單域

gettign指數在Nutch的配置 的conf/domainblacklist-urlfilter.txt我已添加「www.aaa.com」。在conf /域urlfilter.txt我已經加入 「www.bbb.com」 在正則表達式,urlfilter.txt我已經加入

+^http://www.bbb.com -^http://www.aaa.com

但是請注意,它仍然在solr與www.aaa.com域名正在索引。

能有人提供輸入,這可怎麼解決

回答

0

爲了避免索引的網址,最簡單的辦法是避免抓取該網址。

  • 加入這一行的正則表達式,urlfilter.txt:

    -^(http|https)://.*aaa.*$ 
    
  • 添加該配置在您的Nutch-site.xml中(我增加了一些額外的插件):

    <property> 
    <name>plugin.includes</name> 
    <value>protocol-httpclient|urlfilter-regex|parse-(text|tika|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr 
    </value> 
    </property> 
    
  • 編譯你的$ NUTCH_HOME:

    ant runtime 
    
  • 如果這還不夠,這是因爲在你的數據庫或文件中,你有一些不好的URL。因此,刪除所有數據庫(nutch 2的Hbase/Cassandra和nutch 1的段文件)。之後,重試抓取,這將是一件好事。 :)