給定查詢列表並給出一個文檔,我想根據它們與給定文檔的相關程度對查詢進行排名。根據相關性對一個文檔排列多個查詢
對於每個查詢,我計算了查詢中每個單詞的詞頻。 (術語頻率定義爲單詞在文檔中出現的次數除以文檔中的單詞總數)
現在,我總結了查詢中每個術語的術語頻率。
例如:
search query: "Hello World"
document: "It is a beautiful world"
tf for 'Hello': 0
tf for 'World': 1/5 = 0.2
total tf for query 'Hello World' = 0 + 0.2 = 0.2
我的問題是,什麼是我的正常化詞頻每個查詢的最佳方式?所以長查詢不會導致較大的相關性分數。
而且,有沒有更好的方法讓我評分查詢,而不僅僅是使用tf分數?
我不能在我的場景中使用tf-idf,因爲我只對一個文檔進行排名。