WhitespaceTokenizerFactory和StandardTokenizerFactory之間的區別

我是Solr的新手。通過閱讀Solr的wiki，我不明白WhitespaceTokenizerFactory和StandardTokenizerFactory之間的區別。他們真正的區別是什麼？WhitespaceTokenizerFactory和StandardTokenizerFactory之間的區別

2012-06-25 trillions

它們在將分析的文本分成標記的方式上有所不同。

的StandardTokenizer執行此基於以下（從lucene的Javadoc中取出）：在標點符號

的WhitespaceTokenizer做此基礎上的空白字符：

一個WhitespaceTokenizer是，在空白劃分文本標記生成器。相鄰的非空白字符序列形成令牌。

您應該選擇最適合您的應用程序的標記器。在任何情況下，您都必須使用相同的分析器/標記器進行索引和搜索！

2012-06-25 03:13:57 csupnig

謝謝csupnig！當你說「使用相同的分析器/標記器」進行索引和搜索時，你的意思是分析器需要與正在使用的標記器的類型相匹配，對不對？ – trillions

是的，他們應該這樣做，以產生類似的標記。只有極少數情況下，您希望在查詢解析器中使用不同的標記器，而不是在編制索引時使用的標記器。 – csupnig

謝謝csupnig :) – trillions

回答