我使用Gensim包進行主題建模。這個想法是瞭解flickr標籤中的主題。 到目前爲止我使用這段代碼(文件是標籤):LDA for tags(gensim)
texts = [[word for word in document.split(";") if word not in stoplist] for document in documents]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
lda = ldamodel.LdaModel(corpus, id2word=dictionary, alpha = 0.1, num_topics=10)
topic = []
for f in lda.print_topics(num_topics=4, num_words=10):
topic_number = f[0]
keywords = f[1]
keywords = keywords.split(" + ")
keywords_update = {}
for ii in keywords:
ii = str(ii)
keyword = ii[6:]
probab = ii[0:5]
probab = float(probab)
if probab > 0.02:
keywords_update.update({keyword:probab})
topic.append(keywords_update)
print topic
所以基本上我訓練LDA在我的所有文件,然後打印10分最有可能的話每一個話題。這是對的嗎?或者,我必須在部分文檔上訓練數據,然後使用corpus_lda = lda [語料庫]將訓練過的模型應用於未見文檔? 如果每次運行模型時結果都不相同,是否表示主題數量不正確?評估結果的最佳方法是什麼?
要查看每個文檔與哪些主題最相關的主題,您需要使用'lda [語料庫]'。要查看每個主題與哪個詞最相關的詞,可以爲每個主題打印10個最可能的詞。看看[這裏](http://radimrehurek.com/topic_modeling_tutorial/2%20-%20Topic%20Modeling.html)可以幫助你打印這些東西的其他功能。 – interpolack