2012-09-19 64 views

回答

1

你最初的問題並沒有意義。你混淆了兩個不同的世界: 1)TF/IDF: features for text representation 2)SVM - Linear Kernel:最簡單的SVMs(實際上用於文本)的方法。

TF與TF/IDF的區別在於詞語的語料庫頻率是否被使用。 TF/IDF是一個更好的選擇,與分類器無關。

僅使用TF我們並不在乎一個詞是否常見。因此,常見的詞如即使他們沒有提供真實的信息,文章也會受到很大的影響。

在TF/IDF中,一個單詞在語料庫中的出現頻率越高,它所接收到的重量就越小。因此,像文章這樣的常見單詞會收到較小的權重,但卻會出現罕見的單詞,它被假定爲承載更多的信息,並獲得更大的權重

N.B.在上面,「物品」被用作一個例子,它們通常應該在預處理步驟中去除。

+1

你還沒有解決這個問題! OP的意思是,TF每個單詞的向量與TFIDF每個單詞的向量之間的差異僅僅是每個屬性的線性縮放比例。如果您使用線性分類器(如線性迴歸或線性SVM),則縮放不應有任何區別! – ihadanny

-2

TF-IDF在多標籤分類中無用。它的最佳場景是用於文檔排名和/或搜索引擎。

IDF = 1/log DF。 LOG1 = 0;所以如果某個特定課程的每個文檔中都有一個詞,系統丟棄並不重要。

+0

這是對接受的答案的評論,而不是實際的答案。如果你想留下評論,賺取足夠的代表這樣做。 – Syon

相關問題