2016-08-30 57 views
0

我們已經採取的文件量大,使用屈臣氏文檔轉換服務打破他們分成段(「回答單位」),並將其添加到檢索和排名Solr的集合。如果我使用文本的複製/粘貼(也許150字)答案單位之一運行鍼對集合的查詢,檢索和排名將返回一堆文件,以及(如預期)的業績包括其應答單元查詢文本被複制。 但是,這個答案單元並不是最重要的結果;它通常是從頂部7或8個文件。如果我用引號括住查詢文本,則Solr正確地認爲該短語只返回單個答案單元。 儘管沒有引號,查詢中確切用詞的文檔是否仍然是結果中的頂級文檔?爲什麼不是與檢索和排名Solr查詢中的第一個結果完全匹配的文檔?

+0

我不知道,如果RAR支持它,但對於普通的Solr追加'debugQuery = TRUE'到您的查詢就會給你關於這方面作出重大貢獻的得分以及爲什麼他們的排名,因爲他們做的信息。分數的計算方式取決於相似性類別是否處於活動狀態,並且RaR可能使用自定義類別(或按不同字段對文檔進行評分)。 – MatsLindh

回答

2

看來您使用/選擇端點進行搜索。它不應該是最重要的結果,因爲它不使用短語查詢進行搜索。/select使用一個布爾查詢來考慮像idf分數這樣的事情,以得出最終的solr分數。您已經通過添加引號看到了,如果您的應用程序想要這樣做,則可以強制執行短語查詢。這現在負責知道使用什麼類型的查詢到您的應用程序。

現在,如果你正在使用/ fcselect和培訓系統,隨着時間的推移排名器將「學習」,在你的問題/文檔對詞組是最重要的,如果說是事實上的情況。然後它會開始將這些文件重新排列更高。這主要是RNR點是從查詢和文檔來學習如何把最相關的文檔頂端沒有你的應用程序需要編寫不同的(通常時間複雜)Solr的查詢,找到文件。

相關問題