2014-03-03 79 views
0

因此,我正在製作一個python類,它可以計算文檔中每個單詞的tfidf權重。現在在我的數據集中,我有50個文檔。在這些文件中,許多單詞相交,因此具有多個相同的單詞特徵,但具有不同的tfidf權重。所以問題是我如何將所有權重歸結爲一個單一的權重?(Text Classification)處理來自不同文檔的相同單詞[TFIDF]

+0

你是要求公式還是方法? – Drewness

+0

將多個相同單詞特徵的重量加總成一個的方法 – gncvnvcnc

回答

2

首先,讓我們弄清楚一些術語。術語是語料庫中的單詞單元。令牌是特定文檔中特定位置的術語。可以有多個使用相同術語的令牌。例如,在我的回答中,有許多使用術語「the」的標記。但是「這個」只有一個術語。

我覺得你有點困惑。 TF-IDF樣式加權函數指定如何使文檔中術語的標記頻率和文檔中每個術語的語料庫中的背景標記文檔頻率之間的每項得分。 TF-IDF將文檔轉換爲術語到權重的映射。因此,在文檔中共享同一個術語的更多令牌將增加該術語的相應權重,但每個術語只有一個權重。在文檔中共享一個術語的代幣沒有單獨的分數。

+0

是的,我忘了df是指整個語料庫中的文檔不是單詞所在的位置。謝謝 – gncvnvcnc

相關問題