如何在twitter數據上爲LDA形成文檔

我們需要在直播流上的twitter推文上進行主題建模，輸入使得激發流並將數據存儲到HDFS。批處理作業在收集的數據上運行。批量作業是在推文中查找潛在主題。爲此，我們使用潛在Dirichlet分配（LDA）算法來找出主題。我們以最大字符數140的形式接收數據，並在HDFS中存儲爲一行。如何在twitter數據上爲LDA形成文檔

我是新來的LDA算法，並且對這一基本認識，作爲主題模型是基於跨越N個文檔字共現衍生

我明白了兩個選項，輸入數據到LDA。

選項1：將一行推文用作LDA的單個文檔？

選項2：對行和表單文檔進行分組，將這些文檔傳遞給LDA？

我想了解每個選項如何影響詞彙分配到主題。哪個選項應該考慮更好的話題建模。

另外，請讓我知道是否有任何更好的解決方案是需要做的主題建模的twitter數據以外的這些otpions。

注意：當我運行這兩個選項並顯示在詞雲上時，我可以看到兩個主題（3）的單詞分佈是不同的。

任何幫助表示讚賞。

在此先感謝。

來源

2017-04-17 nagendra

由於LDA爲每個文檔分配一個主題併爲每個文檔分配多個主題，所以在短文檔中使用LDA有點棘手。用短文本進行處理意味着很少有單詞屬於同一主題，但大多數推文只包含一個主題，通常會產生垃圾主題分佈。（這是你的選擇1）

我知道有一個paper和Java工具的短文本主題建模，但我從來沒有使用它。這裏是github回購link

對於選項2，我認爲有可能使用LDA並獲得連貫的主題，但是您需要爲分組找到一些語義結構，即根據源，日期，關鍵字和hashtag。

如果您很快應用了任何建議的選項，我將對您獲得的結果真正感興趣。

來源

2017-04-17 14:03:13

如何在twitter數據上爲LDA形成文檔

回答

相關問題