全文搜索分數相關性分析

我試圖實現全文搜索時遇到了問題。對我來說，它接近像數學/統計學更多的東西。從數據庫中提取的數據是書名，所以查詢返回的分數可能具有非常接近的值（例如：9.98; 9.97; 9.78 - 這些都是非常相關的結果）或廣泛傳播（例如：9.99; 8.2; 2.1 - 前兩個是相關的，第三個是噪音）。我無法弄清楚如何操作查詢結果以刪除不相關的。標準偏差不起作用，因爲它在我的第一個例子中過濾了很好的結果，各種標準化方法將忽略相關結果或包含不相關的結果。請任何想法或想法。全文搜索分數相關性分析

謝謝。 Victor

來源

2012-07-10 user1515644

我不知道項目的確切限制和用例，但是在製作書名搜索功能時，我想知道......您最好擔心決定什麼是相關的？用戶可以選擇較差的搜索條件，並最終得到他們真正想要的特定搜索排名列表底部的內容。另外，結果是否以分頁方式顯示？也許不值得擔心離羣值，只是允許你的分頁機制隱藏較不相關的選項，而不會完全阻止用戶找到它們。 – curtisdf 2012-07-10 18:54:27

我只是在研究一個像這樣的問題，但使用基於時間的數據而不是全文。我發現68-95-99.7 rule，其中指出，在一個真正的鐘形曲線中，約95％的結果在均值的2個標準差內。我接受了這些知識，並決定將5％的結果作爲異常值排除。你可以做同樣的事情 - 省略具有最低相關性分數的全文結果的5％。

另一種選擇可能是選擇某個閾值相關性分數，或者要顯示的某個最小數量的結果。或者兩者兼而有之 - 你可以通過任何標準來顯示更多結果。

來源

2012-07-10 18:41:53 curtisdf

感謝您的建議。這也正是我想到的，也正是我偶然發現的地方。舉個例子：對「馬克吐溫故事」的查詢返回了兩個命中分數：「標記兩個小故事」（8.87）和「標記兩個最佳短篇小說」（8.25）;這些stddev是.2192，第二個結果是在2sigma之外，但在3sigma之內，正如所料:)不能使用3sigma，因爲所有的異常值都將包含在內。經過數天閱讀和操作數據，我仍然在樹林中 – user1515644 2012-07-11 11:53:00

全文搜索分數相關性分析

回答

相關問題