0
在Nutch的維基它建議使用如下:何時使用solrindex [-filter]和[-normalize]?
bin/nutch solrindex <solr url> <crawldb> [-linkdb <linkdb>] [-params k1=v1&k2=v2...] (<segment> ... | -dir <segments>) [-noCommit] [-deleteGone] [-filter] [-normalize]
什麼是
[-filter] [-normalize]
時Nutch的有許多過濾器和標準化配置文件的目的是什麼?
automaton-urlfilter.txt
domain-urlfilter.txt
regex-urlfilter.txt
suffix-urlfilter.txt
regex-normalize.xml
host-urlnormalizer.txt
所以受益的人少,你'[-filter] [-normalize]是我上面提到的6個文件的附加/可選配置? – stone2dbone
因此,如果您要使用-filter標誌,它將應用4個過濾配置文件。如果您要應用-normalize標誌,則會使用2個標準化配置文件對它們進行標準化 –