2011-06-23 24 views
0

Solr中/ Lucene的所謂顏色的文檔領域有着這樣的一組詞:PatternTokenizerFactory和停用詞

字段1:藍色/暗紅色/綠色 域2:藍色/黃色/橙色 [...]

我需要運行一個分面搜索,以獲得所有顏色和每種顏色的計數。 首先我試過PatternTokenizerFactory,通過停止字列表followd:被忽略

<analyzer> 
     <tokenizer class="solr.PatternTokenizerFactory" pattern="/" /> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     <filter class="solr.TrimFilterFactory" /> 
     <filter class="solr.StopFilterFactory" 
       ignoreCase="true" 
       words="stopwords" 
     enablePositionIncrements="true" 
     /> 
</analyzer> 

不幸的是,停止字縫。停用詞顯示在分面搜索結果中。

這個SO question描述了同樣的問題。不幸的是,發佈的解決方案不適合我,因爲我不能使用solr.StandardTokenizerFactory,因爲標準的標記器也在空白處分割了標記。這意味着「深紅色」變成了「黑色」和「紅色」,這是錯誤的。

有沒有什麼方法可以使用模式標記器?

Thnak你任何形式的幫助!

回答

1

供您參考:facet,pattern tokenizer和stopwords將在lucene/solr 4中工作:-)