如果我們選擇LDA中的20個主題,然後選擇30個主題。所以我的問題是都將這些結果與相交20個主題和產生類似的結果LDA結果在兩個不同數量的主題之間的相似性?
0
A
回答
1
簡短的回答 - 沒有。 LDA的工作方式是使用Gibbs採樣器在文檔向量上獲得Dirichlet分佈。然後在這個樣本上進行分配,因此總是會因爲抽樣隨機性和分配不確定性而不同,除非你定義了顯式隨機種子並運行相同數量的主題k。看看Blei等人的原創論文。看看k是如何定義的。
UPDATE(關於評論):分層LDA(HLDA)正在設法解決通過構建以下的中國餐館模型主題的水平保持的主題和副主題的問題。但它仍然不完美。
的方式平LDA的作品,但是,它着眼於文檔,而不是主題,以產生進一步的成果。比如說,你得到了0(餐廳的第一張桌子),所有的文檔都試圖坐在那裏,但這不是真的足夠的空間,你創建了另一個話題1,其中一些文檔感覺更舒適等等,現在你是正確的關於如何創建這些表的觀點。但是有一件大事很重要 - 當你創建一個新表/主題1時,主題0是變化的,因爲有些文檔已經離開了第一個表,並且把它們的詞語(或者它們之間的共同性的可能性)與新表格和所有單詞話題0在新的情況下重新洗牌。當您創建更多的表格/主題時,也會發生同樣的情況,這些表格/主題也會被重新評估。因此,如果重新運行30次,您將永遠不會得到相同的20個主題。
相關問題
- 1. 比較兩個結果集之間的相似性
- 2. R LDA主題建模:結果主題包含非常相似的詞
- 3. 查找Python/R中LDA之後的不同主題的數量
- 4. 表示星圖的兩個向量之間的相似性
- 5. 測量兩個二進制文件之間的相似性?
- 6. 兩個向量之間的相關性?
- 7. 尋找不同圖像之間的相似性度量?
- 8. 如何在android中找到兩個GPS座標之間的相似性數量
- 9. Python字符串替換兩個相似字的不同結果
- 10. Spark MLlib LDA:生成總是非常相似的LDA主題的可能原因?
- 11. Doc2Vec Gensim文檔和主題之間的相似性
- 12. 推文與主題檢測之間的很好的相似性度量
- 13. 計算兩個序列之間相似性的複雜性
- 14. 如何確定LDA的主題數量?
- 15. 兩個字符串之間的相似
- 16. 計算數百萬個文檔之間的相似性度量
- 17. 如何測量兩個向量之間的相似度?
- 18. Nhibernate:在相同的2個實體之間映射兩個不同的屬性
- 19. 相同的數據,兩個不同的結果
- 20. getaddrinfo似乎在Windows和Ubuntu之間返回不同的結果?
- 21. 在爲不同API級別定義的相同主題之間共享屬性
- 22. 比較數組之間的相似性
- 23. 爲什麼兩個向量不相似,但結果是1?
- 24. 如果它們的結構相似,在兩個不相關的類型之間進行投射是否安全?
- 25. 兩個「詞」之間的語義相似性/相關性的Java API
- 26. 兩個CSS規則「貌似」具有相同的特異性權重,但不會產生相同的結果
- 27. 相同的變量,不同的結果
- 28. 兩個信號之間的相似性:尋找簡單的測量
- 29. Python中兩個文本文檔之間的相似性
- 30. Excel:計算兩個列表之間的相似性
非常感謝您的回答:)。但我腦海中的問題不應該從主題建模的角度來看。我們如何看待這個話題......這個話題又分成了子話題? –
在更新中回覆 - 評論欄中的空間太少:) – Everst