LDA結果在兩個不同數量的主題之間的相似性？

如果我們選擇LDA中的20個主題，然後選擇30個主題。所以我的問題是都將這些結果與相交20個主題和產生類似的結果LDA結果在兩個不同數量的主題之間的相似性？

2014-06-28 hitesh_noty

簡短的回答 - 沒有。 LDA的工作方式是使用Gibbs採樣器在文檔向量上獲得Dirichlet分佈。然後在這個樣本上進行分配，因此總是會因爲抽樣隨機性和分配不確定性而不同，除非你定義了顯式隨機種子並運行相同數量的主題k。看看Blei等人的原創論文。看看k是如何定義的。

UPDATE（關於評論）：分層LDA（HLDA）正在設法解決通過構建以下的中國餐館模型主題的水平保持的主題和副主題的問題。但它仍然不完美。

的方式平LDA的作品，但是，它着眼於文檔，而不是主題，以產生進一步的成果。比如說，你得到了0（餐廳的第一張桌子），所有的文檔都試圖坐在那裏，但這不是真的足夠的空間，你創建了另一個話題1，其中一些文檔感覺更舒適等等，現在你是正確的關於如何創建這些表的觀點。但是有一件大事很重要 - 當你創建一個新表/主題1時，主題0是變化的，因爲有些文檔已經離開了第一個表，並且把它們的詞語（或者它們之間的共同性的可能性）與新表格和所有單詞話題0在新的情況下重新洗牌。當您創建更多的表格/主題時，也會發生同樣的情況，這些表格/主題也會被重新評估。因此，如果重新運行30次，您將永遠不會得到相同的20個主題。

來源

2014-07-01 00:32:06 Everst

非常感謝您的回答:)。但我腦海中的問題不應該從主題建模的角度來看。我們如何看待這個話題......這個話題又分成了子話題？ –

在更新中回覆 - 評論欄中的空間太少:) – Everst

LDA結果在兩個不同數量的主題之間的相似性？

回答

相關問題