1
我使用20newsgroups數據集上的python gensim軟件包來擬合分層Dirichlet過程(HDP)主題模型,並且我發現我的主題不是非常豐富(頂級單詞概率非常小)。如何減少gensim的字典大小?
我正在使用標準化文本預處理,其中包括標記化,停用詞刪除和詞幹。我在考慮減小字典大小可以幫助您創建更有意義的主題。有什麼方法可以減少gensim中的字典大小?
我使用20newsgroups數據集上的python gensim軟件包來擬合分層Dirichlet過程(HDP)主題模型,並且我發現我的主題不是非常豐富(頂級單詞概率非常小)。如何減少gensim的字典大小?
我正在使用標準化文本預處理,其中包括標記化,停用詞刪除和詞幹。我在考慮減小字典大小可以幫助您創建更有意義的主題。有什麼方法可以減少gensim中的字典大小?
我發現下面的代碼有助於大大減少字典大小,實現更有意義的主題:
dictionary = corpora.Dictionary(docs, prune_at=num_features)
dictionary.filter_extremes(no_below=10,no_above=0.5, keep_n=num_features)
dictionary.compactify()
減少字典大小的第一次嘗試是prune_at參數,第二次嘗試是filter_extremes()函數定義在: gensim dictionary。