dirichlet

    2熱度

    1回答

    我想執行以實施 Implementing Dirichlet processes for Bayesian semi-parametric models(來源:here)中引用的Dirichlet過程例子在PyMC 3. 在示例中,棒破概率計算使用pymc.deterministic 裝飾者: v = pymc.Beta('v', alpha=1, beta=alpha, size=N_dp)

    2熱度

    1回答

    我已成功運行mahout lda,並使用命令mahout ldatopics顯示輸出。 例如我的主題是科學和運動。那麼輸出將是這樣的: 話題0 籃球, 播放, 棒球 話題1個 研究, 研究, 理念現在 我的問題是我怎麼能,識別個人物品的團體或集羣。 是否有ID號或某種跟蹤,以便我添加的每個新文章都將被分組或添加到特定的羣集/主題。 如果我已經有了集羣,下一步是什麼? 感謝

    1熱度

    1回答

    我的問題特定於MatLab中BayesNetToolbox的「learn_params()」函數。在用戶手冊中,「learn_params()」僅適用於完全遵守輸入數據的情況。我用一個部分觀察的數據集對其進行了嘗試,在那裏我將未觀測到的值表示爲NaN。 看起來像「learn_params()」可以處理NaN和數據集中不存在的節點狀態組合。當我應用dirichlet先驗來平滑0值時,我得到了所有節點

    1熱度

    1回答

    有人可以請解釋在PyMC中使用Dirichlet分佈(有一個工作示例)嗎? 我意識到這是微不足道的,但我無法找到所有組件的痕跡。有什麼出路嗎? 我已經貼出我的代碼的相關部分在這裏 KeyError while printing trace in PyMC

    1熱度

    1回答

    據我所知,logp應該是b2 < = 0,否則概率將大於1(這是不可能的)。 有人可以解釋爲什麼我得到這樣一個奇怪的結果。我正在寫下面的代碼的相關部分。 parameters = pm.Dirichlet('parameters',[1,1,1,1], doc='parameters') print parameters.value, parameters.logp 我得到以下輸出 [ 0.

    1熱度

    1回答

    我正在嘗試使用BUGS編寫dirichlet-multinomial模型。 基本上我有18個地區和3個類別每個地區。例如, 區域1:0.50屬於低,0.30屬於中,0.20屬於高。這樣的例子不勝枚舉,以區域18當然也有不同proportions.The只有我的代碼是這樣 `model { for (i in 1:N) { x[1:3] ~ dmulti(p[],n[i]) p[1:3] ~

    5熱度

    4回答

    我用tf/idf來計算兩個文檔之間的相似度相似度。它有一些限制,表現不佳。 我查找了LDA(潛在dirichlet分配)來計算文檔相似度。我不知道 這很多。我無法找到關於我的問題的很多東西。 你能否給我提供任何與我的問題有關的教程?或者你可以提供一些建議,我怎樣才能用LDA完成這項任務? 由於 P.S:也沒有任何的源代碼速效與LDA執行這樣的任務??

    0熱度

    1回答

    當與狄利克雷流程處理,如[德,2007]中,DP被定義爲通過鹼概率H和縮放因子「阿爾法」 根據該棒斷裂構造中,隨機抽取克來自一個DP: G〜DP(α,1H) 由下式給出: G =總和(pi_k * delta_theta_k)用K從1到無窮大 pi_k被下令從給出的單一棒的長度 delta_theta_k是「theta_k」爲中心的點質量Beta分佈繪製(theta_k是隨機從基地配送平) 我有一

    4熱度

    2回答

    我已經學習了幾個星期的LDA和Topic模型。但由於我的數學能力很差,我無法完全理解它的內部算法。我使用了GibbsLDA實現,輸入了很多文檔,並設置了題目數爲100,我得到了一個名爲「final.theta」的文件,其中存儲了每個文檔中每個主題的主題比例。這個結果是好的,我可以使用主題比例來做很多其他事情。 但是,當我嘗試在LDA上Blei的C語言實現時,我只有一個名爲final.gamma的文

    3熱度

    2回答

    我想構建一個依賴於其他分類變量的離散(pymc.Categorical)變量的貝葉斯網絡。 作爲simplest例如,假設變量一個和b是分類和b取決於一個 下面是一個試圖將其與pymc代碼(假設一個需要三個值中的一個和b取四個值中的一個)。這個想法是,使用pymc從數據中學習CPT分佈。 import numpy as np import pymc as pm aRange = 3 bRan