2011-08-27 34 views
0

我想弄清楚如何爲我的應用程序最好地配置Solr。我正在建立索引(主要是德語)PDF文檔,並且我正在使用dismax查詢來查詢Solr。Apache Solr:正確使用CompoundWordFilter

如果文檔包含單詞「Firmenprofil」(德語複合詞 - >'公司簡介'),它將只在查詢中返回該單詞。但是,僅包含「Profil」的查詢也會返回此文檔。

我下載了一個德語字典文件,並將DictionaryCompoundWordTokenFilter應用於索引分析器和查詢分析器。

的問題是,該過濾器分解在「Firmenprofil」,然後產生具有各種含有類的字眼文件的情況下,查詢到非常小部件(例如,「親」,「產品」退回。 ..)。

我試圖從查詢分析器中刪除過濾器,導致solr找不到文檔。我也試着離開查詢過濾器,但明確地將onlyLongestMatch選項設置爲true,但這似乎沒有任何效果。

回答

0

沒有你的實際配置文件,它是一個猜謎遊戲。

您是否檢查profil是字典的一部分?

1

好吧,好像我的字典文件太大了(〜20mb)。我用一個更緊湊的替換它,現在它工作得很好...

+0

是的,我檢查過,沒有發佈任何配置,但我現在已經解決了這個問題 – DeX3