我不知道如何在lucene評分中使用向量空間模型。Lucene評分,關於向量空間模型的精度
我在這裏閱讀(https://www.elastic.co/guide/en/elasticsearch/guide/current/practical-scoring-function.html)lucene將文檔評分爲每項查詢的tf-idf總和(如果我們省略了協調因子,字段長度和提升)。我不明白如何使用向量空間模型。
空間矢量模型可用於計算文檔的tf-idf矢量與查詢的tf-idf矢量之間的相似度。 這應該爲我們提供查詢和文檔之間的CosSimilarity分數。分數將介於0和1之間,因此不同的請求應該易於比較。
爲什麼不使用lucene分數?
好吧,有道理,所以'norm(d)'定義爲'√numTerms(d)'? – Quentin
不,這是不一樣的規範 - 我已經清理了我答案中的符號。 || d ||在它們的公式中沒有直接的等價術語,但可能包含在coord(q,d)中。 –