SVM線性內核中TF-IDF和TF之間的區別

因爲IDF是一個常數。一維中的所有值都乘以一個常數。SVM線性內核中TF-IDF和TF之間的區別

在SVM線性內核中，結果會不一樣？

2012-09-19 Ted Yu

你能告訴我在svm線性內核中tfidf權重和tf權重的區別嗎？ –

你最初的問題並沒有意義。你混淆了兩個不同的世界： 1）TF/IDF: features for text representation 2）SVM - Linear Kernel：最簡單的SVMs（實際上用於文本）的方法。

TF與TF/IDF的區別在於詞語的語料庫頻率是否被使用。 TF/IDF是一個更好的選擇，與分類器無關。

僅使用TF我們並不在乎一個詞是否常見。因此，常見的詞如即使他們沒有提供真實的信息，文章也會受到很大的影響。

在TF/IDF中，一個單詞在語料庫中的出現頻率越高，它所接收到的重量就越小。因此，像文章這樣的常見單詞會收到較小的權重，但卻會出現罕見的單詞，它被假定爲承載更多的信息，並獲得更大的權重

N.B.在上面，「物品」被用作一個例子，它們通常應該在預處理步驟中去除。

2012-10-01 22:31:21 iliasfl

你還沒有解決這個問題！ OP的意思是，TF每個單詞的向量與TFIDF每個單詞的向量之間的差異僅僅是每個屬性的線性縮放比例。如果您使用線性分類器（如線性迴歸或線性SVM），則縮放不應有任何區別！ – ihadanny

-2

TF-IDF在多標籤分類中無用。它的最佳場景是用於文檔排名和/或搜索引擎。

IDF = 1/log DF。 LOG1 = 0;所以如果某個特定課程的每個文檔中都有一個詞，系統丟棄並不重要。

2013-09-22 22:58:09

這是對接受的答案的評論，而不是實際的答案。如果你想留下評論，賺取足夠的代表這樣做。 – Syon

回答