我想弄清楚如何爲我的應用程序最好地配置Solr。我正在建立索引(主要是德語)PDF文檔,並且我正在使用dismax查詢來查詢Solr。Apache Solr:正確使用CompoundWordFilter
如果文檔包含單詞「Firmenprofil」(德語複合詞 - >'公司簡介'),它將只在查詢中返回該單詞。但是,僅包含「Profil」的查詢也會返回此文檔。
我下載了一個德語字典文件,並將DictionaryCompoundWordTokenFilter
應用於索引分析器和查詢分析器。
的問題是,該過濾器分解在「Firmenprofil」,然後產生具有各種含有類的字眼文件的情況下,查詢到非常小部件(例如,「親」,「產品」退回。 ..)。
我試圖從查詢分析器中刪除過濾器,導致solr找不到文檔。我也試着離開查詢過濾器,但明確地將onlyLongestMatch
選項設置爲true,但這似乎沒有任何效果。
是的,我檢查過,沒有發佈任何配置,但我現在已經解決了這個問題 – DeX3