讓我先給我的TFIDF措施的理解: TF(T)=(次項t號碼出現在文檔中)/(總文檔中的術語)的數目 IDF(T)= log_e(的文件總數/文件與在它詞條t) my source, and good explanation 所以有1個IDF度量的每一個字數量在語料庫中。 但是Tf對於每個單詞和語料庫中的每個文檔都是「存在」的。 假設一個單詞在2個文檔中有Tf = 1,那麼TfIdf對於這兩個單詞
我的目標是找到兩個文檔(單詞集合)之間的相似度值。我已經找到了幾個答案,如this SO post或this SO post,它們提供了Python庫來實現這個功能,但是我很難理解這種方法並使其適用於我的用例。 如果我理解正確,文檔的TF-IDF是根據給定的術語計算的,對嗎?這就是我對Wikipedia article的解釋:「tf-idf ...是一個數字統計,旨在反映一個詞對文檔的重要性。」
我試着爲查詢和文檔計算TF-IDF,並使用COS距離對結果進行排名並得到Top50類似文檔。 同樣,我計算BM25得分並將最高BM25得分評爲No.1,並獲得前50個相似文件。 但是,對於TF-IDF和BM25,結果都不好。 (數據集是標籤測試數據集的大小爲1400的文檔。): For example in the testing dataset judgment
the queryID=1