tf-idf：我應該對文檔長度進行規範化

當使用TF-IDF比較文檔A時，B 我知道文檔長度並不重要。但是在這種情況下，與A-B相比，A-C ，我認爲文件B，C的長度應該是相同的長度。tf-idf：我應該對文檔長度進行規範化

例如日誌：100個字文獻A：20個詞語文獻B：30個字

日誌 - A的TF-IDF評分：0.XX 日誌 - B的TF-IDF評分：0.xx

我應該對文檔A，B進行規範化嗎？（如果比較目標不同，它似乎是一個問題或錯誤的結果）

2017-06-17 Acool5

通常你想做任何事情給你的數據最好的交叉驗證結果。

如果您只是在比較它們是否具有餘弦相似性，那麼您必須將矢量歸一化爲計算的一部分，但由於文檔長度不同，它不會影響分數。許多一般的文件檢索系統認爲較短的文件更有價值，但這通常在計算相似性之後作爲分數乘數處理。

經常使用ln（TF）代替原始TF分數作爲歸一化特徵，因爲看到1和2次的術語之間的差異比看到術語100和200之間的差異更重要;它也保持了過度使用一個主導矢量的術語，並且通常更加健壯。

2017-06-17 03:12:37

感謝您的意見。我有一個問題..我發現「Ngram」只是使用TF。 Ngram是否需要規範文檔？我認爲tf-idf和Ngram有相似的算法。 – Acool5

@ Acool5它是完全相同的算法，唯一的區別是使用ngrams時，進入的術語集通常會增加。 –

回答