我們需要在直播流上的twitter推文上進行主題建模,輸入使得激發流並將數據存儲到HDFS。批處理作業在收集的數據上運行。批量作業是在推文中查找潛在主題。爲此,我們使用潛在Dirichlet分配(LDA)算法來找出主題。我們以最大字符數140的形式接收數據,並在HDFS中存儲爲一行。如何在twitter數據上爲LDA形成文檔
我是新來的LDA算法,並且對這一基本認識,作爲主題模型是基於跨越N個文檔字共現衍生
我明白了兩個選項,輸入數據到LDA。
選項1:將一行推文用作LDA的單個文檔?
選項2:對行和表單文檔進行分組,將這些文檔傳遞給LDA?
我想了解每個選項如何影響詞彙分配到主題。哪個選項應該考慮更好的話題建模。
另外,請讓我知道是否有任何更好的解決方案是需要做的主題建模的twitter數據以外的這些otpions。
注意:當我運行這兩個選項並顯示在詞雲上時,我可以看到兩個主題(3)的單詞分佈是不同的。
任何幫助表示讚賞。
在此先感謝。