我正在Java中實現Naive Bayes文本分類算法。查找文本文檔中發生哈希集中每個單詞的次數
我做了什麼至今,宣佈了一個名爲詞彙HashSet的存儲從給定文本文件(測試文件)中的所有獨特的詞。
一個在算法的步驟是將測試文件中的所有成員連接成一個單一的文本文件。事實證明,這是一個相當大的文件,每個文件都有文字。
現在,我都數不過來與串聯文本文件中的詞彙每個單詞出現的次數。我的第一個猜測是保持一種包含每個單詞頻率的數組結構。但是,再次,我會有太多的條目。
任何人都可以請給我更好的建議?
我正在Java中實現Naive Bayes文本分類算法。查找文本文檔中發生哈希集中每個單詞的次數
我做了什麼至今,宣佈了一個名爲詞彙HashSet的存儲從給定文本文件(測試文件)中的所有獨特的詞。
一個在算法的步驟是將測試文件中的所有成員連接成一個單一的文本文件。事實證明,這是一個相當大的文件,每個文件都有文字。
現在,我都數不過來與串聯文本文件中的詞彙每個單詞出現的次數。我的第一個猜測是保持一種包含每個單詞頻率的數組結構。但是,再次,我會有太多的條目。
任何人都可以請給我更好的建議?
使用字典(HashMap中),其中的詞語是鍵和值是出現的次數。如果HashSet適合內存,那麼HashMap也應該如此。
您可以嘗試使用嘗試次數和葉節點可以存儲單詞的頻率。
謝謝先生,我現在得到了正確的想法。 – Triple777er