2

前後算法我想用於蛋白質二級結構預測HMM(前進後退模型)。對二級結構預測

基本上,一個三態模型用於:美國= {H =α螺旋,B =β片層,C =線圈}

,並且每個狀態具有的發射概率PMF 1 * 20(爲20個氨基酸)。

在前向後向模型上使用序列的「訓練集」後,期望最大化收斂爲最佳轉換矩陣(三個狀態之間3乘3)和每個狀態的發射概率pmf。

有誰知道被確定的轉換矩陣和發射概率的「正確」值的序列的數據集(優選非常小)的。我想用該數據集在Excel應用向前向後算法,並建立了我的信心,以確定我是否能得到同樣的結果。

然後移動到東西少比原始Excel中:O)

+0

你也可以問問biostars:http://www.biostars.org – Pierre 2013-05-02 07:20:04

+0

Pierre,謝謝你的建議。同時我也會這樣做。 – 2013-05-02 07:24:12

回答

0

要做到這一點,最好的辦法可能是從你決定發行製作自己的模擬數據。然後你運行程序,看是否參數估計對你的已知參數收斂。在你的情況下,這將涉及編寫一個馬爾可夫鏈,它以一些已知和任意的概率(例如,P(螺旋到鏈)= 0.001)從一個狀態變化到另一個狀態,然後發出一個氨基酸,概率爲例如,P(蛋氨酸)= 0.11)。對於每一步,打印出狀態和排放。然後,您可以觀察後驗概率接近每個站點的狀態。

你可以讓你想要這些爲任意的,因爲當你運行你的HMM你應該適當的分佈收斂。

祝你好運!