2016-09-19 19 views
1

我正在處理Twitter的主題建模以定義個人Twitter用戶的個人資料。我正在使用Gensim模塊來生成LDA模型。我的問題是關於選擇好的輸入數據。我想生成主題,然後分配給特定用戶。問題是關於輸入數據。現在,我正在使用受監督的方法來自行選擇來自不同類別的用戶(體育,IT,政治等),並將他們的推文放入模型中,但效率不高。用正確的輸入數據在Python中生成一個很好的Twitter的LDA模型

什麼是一個很好的方法來產生整個Twitter的有意義的主題?

+1

請注意,來自主題建模的主題與分類任務中的標籤或類有所不同。確保你理解你正在使用的術語,並再次考慮你的問題。你想知道什麼? – jknappen

回答

0

以下是我在爲社交媒體公司工作時曾執行過的一個配置文件。 假設您想要描述「運動」追隨者。 首先,使用Twitter API下載一個着名的體育手柄的所有追隨者,說「ESPN」。看起來是這樣的:

 "ESPN": 51879246, #These are IDs who follow ESPN 
       2361734293, 
       778094964, 
       23000618, 
       2828513313, 
       2687406674, 
       2402689721, 
       2209802017, 

然後,你還可以下載所有處理該51879246, 2361734293...跟隨。這些「主題」將成爲您的特色。

現在,您只需創建矩陣X,其大小與特徵數量*關注者數量相同。然後,只要跟隨者遵循特徵字典中的特定主題(特徵),就開始使用1填充該矩陣。

然後這裏是簡單的2行開始玩。

model = lda.LDA(n_topics=5, n_iter=1000, random_state=1) 
model.fit(X) 
相關問題