PatternTokenizerFactory和停用詞

Solr中/ Lucene的所謂顏色的文檔領域有着這樣的一組詞：PatternTokenizerFactory和停用詞

字段1：藍色/暗紅色/綠色域2：藍色/黃色/橙色 [...]

我需要運行一個分面搜索，以獲得所有顏色和每種顏色的計數。首先我試過PatternTokenizerFactory，通過停止字列表followd：被忽略

<analyzer> 
     <tokenizer class="solr.PatternTokenizerFactory" pattern="/" /> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     <filter class="solr.TrimFilterFactory" /> 
     <filter class="solr.StopFilterFactory" 
       ignoreCase="true" 
       words="stopwords" 
     enablePositionIncrements="true" 
     /> 
</analyzer>

不幸的是，停止字縫。停用詞顯示在分面搜索結果中。

這個SO question描述了同樣的問題。不幸的是，發佈的解決方案不適合我，因爲我不能使用solr.StandardTokenizerFactory，因爲標準的標記器也在空白處分割了標記。這意味着「深紅色」變成了「黑色」和「紅色」，這是錯誤的。

有沒有什麼方法可以使用模式標記器？

Thnak你任何形式的幫助！

來源

2011-06-23 The Bndr

供您參考：facet，pattern tokenizer和stopwords將在lucene/solr 4中工作:-)

來源

2011-07-18 09:27:03

PatternTokenizerFactory和停用詞

回答

相關問題