對Solr中的EdegeNGram分析和詞組搜索的支持3.4.0

我想爲SOLR查詢中的每個詞啓用「startsWith」搜索，但也能夠執行詞組搜索（用引號引用）。對於前綴搜索，我首先添加了後綴「*」。該解決方案允許前綴搜索和詞組搜索，但我不喜歡這種解決方案，因爲它是通配符搜索，通配符搜索不會分析術語。對Solr中的EdegeNGram分析和詞組搜索的支持3.4.0

所以我只在索引上啓用了EdgeNgramFilterFactory。前綴搜索工作正常，但確切的短語搜索不再工作。

是否有人知道如何啓用短語搜索，即使啓用了EdgeNgram？

謝謝！

這裏是schema.xml中

<fieldType name="text" class="solr.TextField" positionIncrementGap="100"> 
     <analyzer type="index"> 
     <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> 
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="back" /> 
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="front" /> 
     <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 

     <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/> 
     <filter class="solr.PorterStemFilterFactory"/> 
     <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> 
     </analyzer> 
     <analyzer type="query"> 
     <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
     <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> 
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> 
     <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/> 
     <filter class="solr.PorterStemFilterFactory"/> 
     <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> 
     </analyzer> 
    </fieldType>

我也注意到，使用WordDelimiterFilterFactory當高亮不能很好地執行了。

來源

2012-01-19 mihaela

它可以幫助您是否發表您的schema.xml中，我們可以看到你在做什麼。 –

短語搜索不起作用，因爲EdgeNGram生成附加的詞並增加了詞的每個塊的詞位置（令人驚訝）。短語預計是精確的，這意味着兩個連續詞語之間的距離（slops）是1.但大塊索引文本看起來不同。想象一下，您使用<filter class="solr.EdgeNGramFilterFactory" minGramSize="2" side="front"/>爲文本「Hello World」建立了索引。然後索引文本看起來像「他hell hell hello wo wor worl世界」。你會找到「hell hell」這個詞，而不是「hello world」。

enter image description here

正如你可以讓字與字之間有一定距離，通過增加QS查詢分析器（dismax）的參數的選項。

但是，「不精確的詞組」搜索可能是不可接受的，因爲您會發現像「hel hell」這樣的其他意外短語。

更好的選擇是use a separate field for ngrams。在這種情況下，文本將被索引在兩個字段中，並且ngrams不會破壞原始文本。

來源

2012-02-07 01:28:00 Grimmo

您可以使用兩個字段 - 一個用於前綴和後綴搜索，另一個用於精確匹配。

<field indexed="true" name="myfield_edgy"  type="edgy"/> 
    <field indexed="true" name="myfield_exactmatch" type="exactmatch"/> 
    <copyField source="myfield_exactmatch" dest="myfield_edgy"/>

現在，你可以在這兩個領域的搜索，甚至使用不同的提升，即在myfield_exactmatch更高排名的比賽。

來源

2012-02-09 16:17:00

另一個選擇是升級到3.6.0和現在一樣通配符不妨礙被分析查詢

來源

2012-06-02 07:47:02 Persimmonium

對Solr中的EdegeNGram分析和詞組搜索的支持3.4.0

回答

相關問題