SVM分類二進制數據DNA

我在R軟件中使用SVM，我會申請您可能提供的任何輸入。我有需要與SVM訓練數據集，所述數據的格式是我有被關於DNA柱以下SVM分類二進制數據DNA

ToPredict Data1  Data2  Data3 Data4   DNA 
S   1   12    1  11   000000000100 
B   -1   17   14  3   11011110111110111 
S   1   4    0  4   0000

問題。

支持向量機能夠獲得像DNA一樣的輸入，並仍然計算可靠的預測？對於我的數據集，0≠00或1≠001因此，它不能被視爲整數。每個值表示需要處理的信息並且順序非常重要，它是一串二進制值，可以是1或0 。

的0101信息可被顯示爲ABAB等（A = 0，B = 1）

如何可以訓練與上面的數據的SVM？

謝謝。

來源

2014-03-14 David L.

嗨！我認爲這是可能的，但是你可以通過嘗試一些不同的事情來更好地回答這個問題！您可以設置您擁有的最長DNA字符串的長度作爲標準，並且對於每行，使用以下三個可能值中的一個填充該行中的列： - 1,0和-1或其他未知值。您也可以嘗試使用原始DNA字符串的長度作爲功能。如果所有列/特徵的範圍會有很大差異，那麼您可能需要考慮正常化，即將值分佈在[-1,1]或類似的小範圍內。 – arturomp

對於SVM的工作，「所有」你需要有一個內核功能。

那麼什麼是你的「DNA字符串」的明智的核函數？你可能不需要能夠證明它是一個合適的核心，但是你可以用一個很好的相似性度量來逃避。

你會如何評估序列的相似性？我無法幫助你，因爲我不知道數據的含義。這取決於用戶（即你）的指定。

來源

2014-03-15 03:07:10

感謝您花時間回覆。目前，我使用的是RBF內核，我選擇它的方式是執行10次交叉驗證並選擇較少的錯誤百分比。數據面向金融市場，我簡單地設置：Bar up = 1，Bar down = 0，然後我開始順序趨勢。 Data1指定趨勢類型，1 =趨勢上升，-1 =趨勢下跌。 Data2 =小節數量，Data3 =小節數量Up，Data4 =小節數量下降。 –

SVM分類二進制數據DNA

回答

相關問題