2013-08-16 62 views
0

在Nutch的維基它建議使用如下:何時使用solrindex [-filter]和[-normalize]?

bin/nutch solrindex <solr url> <crawldb> [-linkdb <linkdb>] [-params k1=v1&k2=v2...] (<segment> ... | -dir <segments>) [-noCommit] [-deleteGone] [-filter] [-normalize] 

什麼是

[-filter] [-normalize] 

時Nutch的有許多過濾器和標準化配置文件的目的是什麼?

automaton-urlfilter.txt 
domain-urlfilter.txt 
regex-urlfilter.txt 
suffix-urlfilter.txt 
regex-normalize.xml 
host-urlnormalizer.txt 

回答

0

當索引到Solr這些配置文件設置爲默認爲false,所以如果你希望要傳遞到Solr的索引是正火或filetered那麼你會啓用這些選項。

對我來說,這似乎是一個毫無意義的選擇,但只是因爲這不是我怎麼會喜歡我的Solr的配置工作,但它是一種更先進的功能,將

+0

所以受益的人少,你'[-filter] [-normalize]是我上面提到的6個文件的附加/可選配置? – stone2dbone

+0

因此,如果您要使用-filter標誌,它將應用4個過濾配置文件。如果您要應用-normalize標誌,則會使用2個標準化配置文件對它們進行標準化 –

相關問題