2017-06-17 54 views
2

當使用TF-IDF比較文檔A時,B 我知道文檔長度並不重要。 但是在這種情況下,與A-B相比,A-C ,我認爲文件B,C的長度應該是相同的長度。tf-idf:我應該對文檔長度進行規範化

例如 日誌:100個字 文獻A:20個詞語 文獻B:30個字

日誌 - A的TF-IDF評分:0.XX 日誌 - B的TF-IDF評分:0.xx

我應該對文檔A,B進行規範化嗎? (如果比較目標不同,它似乎是一個問題或錯誤的結果)

回答

3

通常你想做任何事情給你的數據最好的交叉驗證結果。

如果您只是在比較它們是否具有餘弦相似性,那麼您必須將矢量歸一化爲計算的一部分,但由於文檔長度不同,它不會影響分數。許多一般的文件檢索系統認爲較短的文件更有價值,但這通常在計算相似性之後作爲分數乘數處理。

經常使用ln(TF)代替原始TF分數作爲歸一化特徵,因爲看到1和2次的術語之間的差異比看到術語100和200之間的差異更重要;它也保持了過度使用一個主導矢量的術語,並且通常更加健壯。

+0

感謝您的意見。我有一個問題..我發現「Ngram」只是使用TF。 Ngram是否需要規範文檔?我認爲tf-idf和Ngram有相似的算法。 – Acool5

+0

@ Acool5它是完全相同的算法,唯一的區別是使用ngrams時,進入的術語集通常會增加。 –

相關問題