因此,我正在製作一個python類,它可以計算文檔中每個單詞的tfidf權重。現在在我的數據集中,我有50個文檔。在這些文件中,許多單詞相交,因此具有多個相同的單詞特徵,但具有不同的tfidf權重。所以問題是我如何將所有權重歸結爲一個單一的權重?(Text Classification)處理來自不同文檔的相同單詞[TFIDF]
0
A
回答
2
首先,讓我們弄清楚一些術語。術語是語料庫中的單詞單元。令牌是特定文檔中特定位置的術語。可以有多個使用相同術語的令牌。例如,在我的回答中,有許多使用術語「the」的標記。但是「這個」只有一個術語。
我覺得你有點困惑。 TF-IDF樣式加權函數指定如何使文檔中術語的標記頻率和文檔中每個術語的語料庫中的背景標記文檔頻率之間的每項得分。 TF-IDF將文檔轉換爲術語到權重的映射。因此,在文檔中共享同一個術語的更多令牌將增加該術語的相應權重,但每個術語只有一個權重。在文檔中共享一個術語的代幣沒有單獨的分數。
+0
是的,我忘了df是指整個語料庫中的文檔不是單詞所在的位置。謝謝 – gncvnvcnc
相關問題
- 1. 處理來自parsedatetime的不同結果
- 2. Safari不處理來自XSL的HTML相同
- 3. 使用相同的函數來處理不同的類
- 4. 以相同的方式處理由空格分隔的單詞
- 5. 處理來自不同JSON API響應的不同POJO
- 6. 如何處理同一文檔的不同路徑?
- 7. 在R中用相同的單詞替換沒有初始@的相同單詞
- 8. PHP MySQL將來自不同行的單元格的值相同
- 9. Hadoop MapReduce處理來自HDFS的不同輸入文件
- 10. 硒處理與mouseover不同元素的相同鏈接文本
- 11. 來自不同文件的相同名稱的校準功能
- 12. 如何在單個文檔的tfidf矩陣中找到哪個單詞具有最大tfidf?
- 13. 表單參數不通過,但處理相同的表單中的文件?
- 14. 詞典(值相同,不同的密鑰)
- 15. 如何處理具有相同父項的不同事件處理程序?
- 16. 管理來自不同來源的
- 17. 來自不同來源的上下文菜單:爲不同的菜單項設置不同的數據綁定
- 18. 不同的取代相同的單詞記事本++
- 19. javascript編輯帶相同單詞的textarea
- 20. 要插入的節點來自不同的文檔上下文
- 21. 相同的瀏覽器版本,2個不同的javascript處理
- 22. 我處理完相同表單的文本字段後,文件不會上傳
- 23. 如何比較來自不同查詢的2個單詞?
- 24. 過濾器來自不同過程的單詞條目
- 25. 繪製文檔tfidf 2D圖
- 26. C#控制檯來自多個批處理文件的相同輸出
- 27. 「提升」lucene文檔中相同字段的不同實例
- 28. Preg匹配相同的單詞與相同的回報?
- 29. 如何自動化Excel文檔並同時處理其他Excel文檔?
- 30. 使用相同的處理器實例處理不同的註釋
你是要求公式還是方法? – Drewness
將多個相同單詞特徵的重量加總成一個的方法 – gncvnvcnc