0
Solr中/ Lucene的所謂顏色的文檔領域有着這樣的一組詞:PatternTokenizerFactory和停用詞
字段1:藍色/暗紅色/綠色 域2:藍色/黃色/橙色 [...]
我需要運行一個分面搜索,以獲得所有顏色和每種顏色的計數。 首先我試過PatternTokenizerFactory,通過停止字列表followd:被忽略
<analyzer>
<tokenizer class="solr.PatternTokenizerFactory" pattern="/" />
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.TrimFilterFactory" />
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords"
enablePositionIncrements="true"
/>
</analyzer>
不幸的是,停止字縫。停用詞顯示在分面搜索結果中。
這個SO question描述了同樣的問題。不幸的是,發佈的解決方案不適合我,因爲我不能使用solr.StandardTokenizerFactory,因爲標準的標記器也在空白處分割了標記。這意味着「深紅色」變成了「黑色」和「紅色」,這是錯誤的。
有沒有什麼方法可以使用模式標記器?
Thnak你任何形式的幫助!