SOLR Haystack分裂數字

下面的問題涉及使用SOLR（4.9.0）和Haystack的Django應用程序（1.8.8）。SOLR Haystack分裂數字

我需要搜索的數據包含各種字符串，如「A1234」和「ABCDE1」;這些字符串將同時在「文本」和「名」定義字段轉起來如下：

name = indexes.CharField(indexed=True, model_attr="name") 
text = indexes.EdgeNgramField(document=True, use_template=True)

如果上面的字符串中的一個，則文本字段中搜索它不會被發現，但沒有在名稱字段中搜索問題。如果我在文本字段中搜索時省略了字母（例如，我搜索「1234」），那麼我可以找到我要查找的內容。

直接與調試啓用顯示，這些字符串被分割查詢SOLR服務器：

// text field - no hits 
rawquerystring: "A1234", 
querystring: "A1234", 
parsedquery: "+text:a +text:1234", 
parsedquery_toString: "+text:a +text:1234", 
explain: { }, 
QParser: "LuceneQParser", 

// name field - finds the correct records 
rawquerystring: "name:A1234", 
querystring: "name:A1234", 
parsedquery: "name:a1234", 
parsedquery_toString: "name:a1234", 
explain: { }, 
QParser: "LuceneQParser",

有關edge_ngram字段（以上是這樣的文本字段）schema.xml中的部分如下：

<fieldType name="edge_ngram" class="solr.TextField" positionIncrementGap="1"> 
    <analyzer type="index"> 
    <tokenizer class="solr.NGramTokenizerFactory" minGramSize="3" maxGramSize="15"/> 
    <filter class="solr.LowerCaseFilterFactory" /> 
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1"  generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll=" 
0" splitOnCaseChange="1" splitOnNumerics="0"/> 
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/> 
    </analyzer> 
    <analyzer type="query"> 
    <tokenizer class="solr.WhitespaceTokenizerFactory" /> 
    <filter class="solr.LowerCaseFilterFactory" /> 
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/> 
    </analyzer> 
</fieldType>

那麼，有沒有辦法阻止這些字符串的拆分？我會認爲splitOnNumerics =「0」選項會將問題排序（如Solr: Can't search for numbers mixed with characters中所建議的），但似乎無法將其應用於solr.EdgeNGramFilterFactory。我已經使用了這個後一個工廠，因爲它解決了另外一個問題，即在文本字段中搜索「foo bar」時不會找到「foobar.com」（用戶將運行這種搜索並期待一次搜索）。

有沒有人有任何建議來解決這個問題？

來源

2016-01-07 knirirr

終於找到了。該edge_ngram字段類型包含在此：

<tokenizer class="solr.WhitespaceTokenizerFactory" />                        
    <filter class="solr.LowerCaseFilterFactory" />                         
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>

修改WordDelimiterFilterFactory設置generateNumberParts =「0」的伎倆，同時保留了這一領域的其他要求一樣。

來源

2016-01-13 08:53:00 knirirr

SOLR Haystack分裂數字

回答

相關問題