我正在處理文檔聚類問題,爲此我需要獲取文檔數據集的單詞頻率。在巨大數據集中存儲字頻
目前,我使用一個簡單的辦法:我創建了一個詞表,我添加儘可能多的列的數據集包含的文檔數量,獲得類似
word | document1 | document2 | ... | document n |
這種方法,即使如果速度慢,適用於小數據集(包含少於100個文檔)。問題是,現在我必須處理巨大的文件,每個文件包含700多個文件,我覺得必須有一個更明智的方式來處理它:問題是,我想不出其他任何東西。
所以,問題是:如何有效地跟蹤每個文檔的單詞頻率?
PS:考慮每個文檔的單詞數量或數據集大小都是未知的,但合理的上限應該是每個文檔2000個字,每個數據集2000個文檔。