0

我們需要在直播流上的twitter推文上進行主題建模,輸入使得激發流並將數據存儲到HDFS。批處理作業在收集的數據上運行。批量作業是在推文中查找潛在主題。爲此,我們使用潛在Dirichlet分配(LDA)算法來找出主題。我們以最大字符數140的形式接收數據,並在HDFS中存儲爲一行。如何在twitter數據上爲LDA形成文檔

我是新來的LDA算法,並且對這一基本認識,作爲主題模型是基於跨越N個文檔字共現衍生

我明白了兩個選項,輸入數據到LDA。

選項1:將一行推文用作LDA的單個文檔?

選項2:對行和表單文檔進行分組,將這些文檔傳遞給LDA?

我想了解每個選項如何影響詞彙分配到主題。哪個選項應該考慮更好的話題建模。

另外,請讓我知道是否有任何更好的解決方案是需要做的主題建模的twitter數據以外的這些otpions。

注意:當我運行這兩個選項並顯示在詞雲上時,我可以看到兩個主題(3)的單詞分佈是不同的。

任何幫助表示讚賞。

在此先感謝。

回答

2

由於LDA爲每個文檔分配一個主題併爲每個文檔分配多個主題,所以在短文檔中使用LDA有點棘手。用短文本進行處理意味着很少有單詞屬於同一主題,但大多數推文只包含一個主題,通常會產生垃圾主題分佈。 (這是你的選擇1)

我知道有一個paper和Java工具的短文本主題建模,但我從來沒有使用它。這裏是github回購link

對於選項2,我認爲有可能使用LDA並獲得連貫的主題,但是您需要爲分組找到一些語義結構,即根據源,日期,關鍵字和hashtag。

如果您很快應用了任何建議的選項,我將對您獲得的結果真正感興趣。

相關問題