2011-08-22 20 views
8

我期待執行實時A/B並控制並排實驗,以幫助瞭解更改如何影響搜索質量。我將測試諸如boost值和模糊查詢之類的變量。Solr相關性 - 如何對搜索質量進行A/B測試?

還有什麼指標用於確定用戶是否更喜歡A vs B?這裏有兩個指標,我在網上找到...

  • 在谷歌Analytics(分析),「搜索退出百分比」是你可以用它來 指標衡量你的網站的搜索結果的質量

  • 另一種方式衡量搜索質量是衡量搜索結果頁面訪問者瀏覽量的 的數量。

回答

8

搜索質量是不容易測量的。爲了衡量相關性,您需要有幾件事情:

  1. 衡量相關性的競爭對手。對於您的情況,您的搜索引擎的不同實例將成爲彼此的競爭對手。我的意思是,一個搜索引擎實例將運行基本算法,另一個則啓用模糊,另一個同時使用模糊和提升等。

  2. 您需要手動評估結果。您可以要求您的同事對流行查詢的查詢/ url對進行評分,然後對這些漏洞進行評分(即查詢/ url對未評級),您可以使用「Learning to Rank」算法獲得一些動態排名功能http://en.wikipedia.org/wiki/Learning_to_rank。不要驚訝,但多數民衆贊成在真正的(請參閱下面的谷歌/冰的例子)。

谷歌和必應都在水平搜索市場的競爭者。這些搜索引擎,全球員工手冊法官和他們投資數百萬,率所以對於每個查詢/ url對,通常對前3名或前5名結果進行評級,基於這些評級,他們可以使用像NDCG(標準化折扣累積增益)這樣的度量,這是最好的度量標準之一,最流行的一種

According to wikipedia

貼現累積增益(DCG)是一個網絡搜索引擎>算法或相關的應用程序,經常在信息檢索中使用的有效性的度量。在搜索引擎結果集中使用文檔的分級>相關比例,DCG基於其在結果列表中的位置來度量文檔的有用性,即增益。收益從結果列表的頂部累積到底部,每個結果的收益以>較低的等級打折。

維基百科很好地解釋了NDCG。這是一篇簡短的文章,請仔細閱讀。

正如你所提到的,你也可以點擊通過率/數據在你有種智慧的人羣算法,你調整相關性的基礎上。這是一個非常好的出路,但它吸引了垃圾郵件。所以它必須結合NDCG/MAP等一些指標來解決您的相關性問題。

如果您仍然需要了解更多關於如何將整體材料放在一起可用於您的案例研究,我可以提供更多詳細信息。

相關問題