2013-04-27 91 views
1

我有一個關於機器學習和決策樹的問題。我從事計算生物學(長RNA二級結構預測)。機器學習,決策樹

我有一個預測預測RNA二級結構準確性的程序。的輸入參數的程序是

  • 莖長(L) - 的值從3,4,5,6,7和8
  • 間隙尺寸(G) - 從0,1,2值3,4,5,6,7和8
  • 塊長度(C) - 從60,70,80,90,100,120,130,140值,以及150

我想知道,對於給定的RNA序列長度(S),其中L,G,C組合給出最大精度。

我有一個包含50個序列長度爲S的序列文件的訓練數據集,並且對於每個這些序列文件,給出最大準確度輸出的L,G,C輸入參數組合是已知的。

有沒有一種方法可以知道要使用哪個特定的L,G和C參數以便找出所有L,G和C範圍值的最大精度?

回答

1

您的問題陳述不是很清楚。

你想要一個監督式學習算法,從你的50個訓練樣例中學習,並創建一個預測程序,將一個「序列文件」作爲輸入併產生該序列文件的L,G和C的輸出值。

這是正確的嗎?

有監督學習算法有很多選擇。序列文件中的數據究竟是什麼?它是一個實數的矢量嗎?它有什麼結構?如果你必須確定L,G和C「手動」序列文件,你可以做到嗎?你會怎麼做?

1

我認爲你想找到一個「最大的影響因素」三個參數中(L,G,C),這是不是一個很常見的需求,但我覺得一些想法,可以幫助你。

  1. 你可能可以建立(因爲每次你選擇兩個從三個參數三棵樹),它使用三個參數(一棵樹),兩個參數幾種不同的決策樹和只有一個參數(當然,三棵樹) 。因此,您可以有七個決策樹,然後您可以將精度輸出與它們進行比較,以便了解不同參數對最終預測的貢獻。

  2. 您可以計算出這三個參數的相對矩陣和最終預測,然後您就可以知道它們對最終結果的貢獻權重。

PS.You要求(只選擇一個因素,使機器學習)genrenally不是一個好主意,因爲不同的因素日預測的貢獻通常不是線性的,即要知道,結合更多的因素在機器學習中的輸入向量通常會帶給你更好的結果。

祝你好運!