的後續問題,以Why solr RemoveDuplicatesTokenFilterFactory dont work?如何刪除重複的令牌Solr中
怎樣才能讓Solr的,無論詞位置刪除重複的話嗎?
例如:
Field value: text word word text word word
Expected tokens after X filter: text word
的後續問題,以Why solr RemoveDuplicatesTokenFilterFactory dont work?如何刪除重複的令牌Solr中
怎樣才能讓Solr的,無論詞位置刪除重複的話嗎?
例如:
Field value: text word word text word word
Expected tokens after X filter: text word
這應該是很容易編寫自己的TokenFilter實現這一目標。有一件事情可能不簡單,就是處理position increment(如果你有興趣在這個字段上運行跨度的短語查詢)。如果你不知道如何開始,你可以看看StopFilter implementation。
我從「FilteringTokenFilter」創建了一個新的過濾器類。任務非常簡單。我將在添加到列表中之前進行檢查。
我已經創建了一個簡單的插件Eliminate duplicate words
要加載插件,JAR文件(EliminateDuplicate沿 - *罐,其可以通過執行MVN包命令或https://github.com/volkan/lucene-solr-filter-eliminateduplicate/tree/master/solr/lib被創建)在Solr的在一個lib目錄主目錄。 lib目錄的位置靠近solr.xml文件。
請不要只是發佈一些工具或庫作爲答案。至少在答案中演示[它如何解決問題](http://meta.stackoverflow.com/a/251605)。 – 2017-10-07 13:46:13
@BaummitAugen感謝您的反饋。我更新了帖子。 – volkan 2017-10-07 15:05:12