2017-06-21 72 views
0

我想了解LDA主題模型如何在槌子API中實現。在ParallelTopicModel類中,我可以看到一個稱爲typeTopicCounts的2D int數組,它在buildInitialTypeTopicCounts()方法中通過一些按位操作初始化,並稍後用於每個文檔。我的問題是這個數組值意味着什麼?我只能從源代碼中獲得的信息是它被[特徵索引,主題索引]索引。typeTopicCounts功能的主題建模實施槌子API

回答

0

針對LDA的吉布斯採樣的計算性能主要是通過計算每個詞標記的主題抽樣分佈。話題模型被設置爲在話語和話題之間具有很多稀疏的關係。如果我們可以通過從一個詞到下一個詞節省儘可能多的計算並且只做​​有意義的計算(比如不乘以零)來使得計算更有效率,那麼我們可以獲得很大的加速。

每個單詞類型在typeTopicCounts數組中有一個int s的數組。這個數組中的每個int值的含義使用位移運算符編碼兩個一個話題和一個令牌計數。計數值位於高位,因此我們可以按「計數」對主題進行排序,而無需「解包」整數。從這個方法的教程

幻燈片都可以在這裏:

https://mimno.infosci.cornell.edu/slides/fast-sparse-sampling.pdf