2012-07-10 40 views
3

我試圖實現全文搜索時遇到了問題。對我來說,它接近像數學/統計學更多的東西。從數據庫中提取的數據是書名,所以查詢返回的分數可能具有非常接近的值(例如:9.98; 9.97; 9.78 - 這些都是非常相關的結果)或廣泛傳播(例如:9.99; 8.2; 2.1 - 前兩個是相關的,第三個是噪音)。我無法弄清楚如何操作查詢結果以刪除不相關的。標準偏差不起作用,因爲它在我的第一個例子中過濾了很好的結果,各種標準化方法將忽略相關結果或包含不相關的結果。請任何想法或想法。全文搜索分數相關性分析

謝謝。 Victor

+0

我不知道項目的確切限制和用例,但是在製作書名搜索功能時,我想知道......您最好擔心決定什麼是相關的?用戶可以選擇較差的搜索條件,並最終得到他們真正想要的特定搜索排名列表底部的內容。另外,結果是否以分頁方式顯示?也許不值得擔心離羣值,只是允許你的分頁機制隱藏較不相關的選項,而不會完全阻止用戶找到它們。 – curtisdf 2012-07-10 18:54:27

回答

1

我只是在研究一個像這樣的問題,但使用基於時間的數據而不是全文。我發現68-95-99.7 rule,其中指出,在一個真正的鐘形曲線中,約95%的結果在均值的2個標準差內。我接受了這些知識,並決定將5%的結果作爲異常值排除。你可以做同樣的事情 - 省略具有最低相關性分數的全文結果的5%。

另一種選擇可能是選擇某個閾值相關性分數,或者要顯示的某個最小數量的結果。或者兩者兼而有之 - 你可以通過任何標準來顯示更多結果。

+0

感謝您的建議。這也正是我想到的,也正是我偶然發現的地方。舉個例子:對「馬克吐溫故事」的查詢返回了兩個命中分數:「標記兩個小故事」(8.87)和「標記兩個最佳短篇小說」(8.25);這些stddev是.2192,第二個結果是在2sigma之外,但在3sigma之內,正如所料:)不能使用3sigma,因爲所有的異常值都將包含在內。經過數天閱讀和操作數據,我仍然在樹林中 – user1515644 2012-07-11 11:53:00