2013-07-02 46 views
1

我想在solr索引文檔時刪除標記之間的額外時間段。 在索引到solr之前,我始終可以使用自定義代碼執行此操作。但是有沒有一個標記器或分析器或配置可以消除不必要的時間段(點)? 舉例:該維修店很不錯...我會推薦給任何人誰願意去修理自行車...請試試看.....在solr中索引時從標記中刪除額外的額外時段(點)

我已經通過多個斷詞消失了,分析儀。他們似乎都沒有爲此工作。 我目前使用solr.WhitespaceTokenizerFactorysolr.WordDelimiterFilterFactory以及其他一些過濾器。 的因爲我使用WordDelimiterFilterFactory的方式,Solr的是產生 好,好... ...自行車,自行車,bikesplease,嘗試,嘗試.....

我不想Solr的生成令牌與...結尾。 有關如何在不編寫自定義代碼的情況下執行此操作的任何想法?.........

回答

1

您是否嘗試過solr.StandardTokenizerFactory?

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.StandardTokenizerFactory

我試過此標記生成,似乎如你預期工作。

+0

嗨ymonad,文檔說「沒有任何使用StandardTokenizer類型的過濾器。」我需要後續的過濾器來理解這些令牌。有關於此的任何想法? – guruprasath

+0

更確切地說,這個標準解析器可以連接到像worddelimiterfilter和snowballfilter等後續複雜的過濾器嗎? – guruprasath

+0

謝謝。我試過這個,其他過濾器可以識別這些令牌。我正在搜索這個空白標記器是否有任何缺點 – guruprasath