回答
你最初的問題並沒有意義。你混淆了兩個不同的世界: 1)TF/IDF: features for text representation 2)SVM - Linear Kernel:最簡單的SVMs(實際上用於文本)的方法。
TF與TF/IDF的區別在於詞語的語料庫頻率是否被使用。 TF/IDF是一個更好的選擇,與分類器無關。
僅使用TF我們並不在乎一個詞是否常見。因此,常見的詞如即使他們沒有提供真實的信息,文章也會受到很大的影響。
在TF/IDF中,一個單詞在語料庫中的出現頻率越高,它所接收到的重量就越小。因此,像文章這樣的常見單詞會收到較小的權重,但卻會出現罕見的單詞,它被假定爲承載更多的信息,並獲得更大的權重
N.B.在上面,「物品」被用作一個例子,它們通常應該在預處理步驟中去除。
你還沒有解決這個問題! OP的意思是,TF每個單詞的向量與TFIDF每個單詞的向量之間的差異僅僅是每個屬性的線性縮放比例。如果您使用線性分類器(如線性迴歸或線性SVM),則縮放不應有任何區別! – ihadanny
TF-IDF在多標籤分類中無用。它的最佳場景是用於文檔排名和/或搜索引擎。
IDF = 1/log DF。 LOG1 = 0;所以如果某個特定課程的每個文檔中都有一個詞,系統丟棄並不重要。
這是對接受的答案的評論,而不是實際的答案。如果你想留下評論,賺取足夠的代表這樣做。 – Syon
- 1. 調整R(線性SVM內核)中的svm參數
- 2. 用戶空間和內核空間崩潰之間的區別
- 3. 線性svm與χ平方內核vs rff內核
- 4. 「:」和「|」之間的區別中的R線性建模
- 5. 內核#eval和Binding#eval之間的區別紅寶石
- 6. 內核源代碼和根目錄之間的區別
- 7. 單片和微內核之間的區別
- 8. 內核加載地址和入口點之間的區別
- 9. Keras:內核和活動之間的區別regularizers
- 10. BackgroundWorker和線程之間的區別?
- 11. thread.start()和executor.submit(線程)之間的區別
- 12. Scikits學習:線性內核SVM中的特徵權重
- 13. SPQuery:Query和ViewXml屬性之間的區別?
- 14. 內容和LoadContentFrom之間的區別
- 15. R:[[]]和$之間的區別,同時構建線性模型
- 16. 線性隊列和循環隊列之間的區別
- 17. 二次分割和線性分割之間的區別
- 18. 多核處理器之間的區別
- 19. 期貨和設置內線程之間的區別
- 20. 異步和多線程之間的內部區別是什麼?
- 21. 內核中IRQ和FIQ的區別?
- 22. 最好在線性內核中使用svm在哪裏?
- 23. Linux內核模塊中的內核線程之間的通信
- 24. 中繼線和用戶線之間的區別
- 25. 用戶空間和內核線程之間的共享內存
- 26. 之間的〜/和的區別../
- 27. Linux內核中的struct net_device的dev_addr和perm_addr之間有什麼區別
- 28. 外部和內部表格性能之間的區別?
- 29. SVM內核的速度?線性與RBF vs Poly
- 30. '#','%'和'$'之間的區別
你能告訴我在svm線性內核中tfidf權重和tf權重的區別嗎? –