用正確的輸入數據在Python中生成一個很好的Twitter的LDA模型

我正在處理Twitter的主題建模以定義個人Twitter用戶的個人資料。我正在使用Gensim模塊來生成LDA模型。我的問題是關於選擇好的輸入數據。我想生成主題，然後分配給特定用戶。問題是關於輸入數據。現在，我正在使用受監督的方法來自行選擇來自不同類別的用戶（體育，IT，政治等），並將他們的推文放入模型中，但效率不高。用正確的輸入數據在Python中生成一個很好的Twitter的LDA模型

什麼是一個很好的方法來產生整個Twitter的有意義的主題？

來源

2016-09-19 mister_banana_mango

請注意，來自主題建模的主題與分類任務中的標籤或類有所不同。確保你理解你正在使用的術語，並再次考慮你的問題。你想知道什麼？ – jknappen

以下是我在爲社交媒體公司工作時曾執行過的一個配置文件。假設您想要描述「運動」追隨者。首先，使用Twitter API下載一個着名的體育手柄的所有追隨者，說「ESPN」。看起來是這樣的：

 "ESPN": 51879246, #These are IDs who follow ESPN 
       2361734293, 
       778094964, 
       23000618, 
       2828513313, 
       2687406674, 
       2402689721, 
       2209802017,

然後，你還可以下載所有處理該51879246, 2361734293...跟隨。這些「主題」將成爲您的特色。

現在，您只需創建矩陣X，其大小與特徵數量*關注者數量相同。然後，只要跟隨者遵循特徵字典中的特定主題（特徵），就開始使用1填充該矩陣。

然後這裏是簡單的2行開始玩。

model = lda.LDA(n_topics=5, n_iter=1000, random_state=1) 
model.fit(X)

來源

2017-05-17 19:38:06 Aaron

用正確的輸入數據在Python中生成一個很好的Twitter的LDA模型

回答

相關問題