2
當使用TF-IDF比較文檔A時,B 我知道文檔長度並不重要。 但是在這種情況下,與A-B相比,A-C ,我認爲文件B,C的長度應該是相同的長度。tf-idf:我應該對文檔長度進行規範化
例如 日誌:100個字 文獻A:20個詞語 文獻B:30個字
日誌 - A的TF-IDF評分:0.XX 日誌 - B的TF-IDF評分:0.xx
我應該對文檔A,B進行規範化嗎? (如果比較目標不同,它似乎是一個問題或錯誤的結果)
感謝您的意見。我有一個問題..我發現「Ngram」只是使用TF。 Ngram是否需要規範文檔?我認爲tf-idf和Ngram有相似的算法。 – Acool5
@ Acool5它是完全相同的算法,唯一的區別是使用ngrams時,進入的術語集通常會增加。 –