2014-03-14 96 views
1

我在R軟件中使用SVM,我會申請您可能提供的任何輸入。 我有需要與SVM訓練數據集,所述數據的格式是我有被關於DNA柱以下SVM分類二進制數據DNA

ToPredict Data1  Data2  Data3 Data4   DNA 
S   1   12    1  11   000000000100 
B   -1   17   14  3   11011110111110111 
S   1   4    0  4   0000 


問題。

支持向量機能夠獲得像DNA一樣的輸入,並仍然計算可靠的預測? 對於我的數據集,0≠00或1≠001因此,它不能被視爲整數。每個值表示需要處理的信息並且順序非常重要,它是一串二進制值,可以是1或0 。



的0101信息可被顯示爲ABAB等(A = 0,B = 1)

如何可以訓練與上面的數據的SVM?

謝謝。

+0

嗨!我認爲這是可能的,但是你可以通過嘗試一些不同的事情來更好地回答這個問題!您可以設置您擁有的最長DNA字符串的長度作爲標準,並且對於每行,使用以下三個可能值中的一個填充該行中的列: - 1,0和-1或其他未知值。您也可以嘗試使用原始DNA字符串的長度作爲功能。如果所有列/特徵的範圍會有很大差異,那麼您可能需要考慮正常化,即將值分佈在[-1,1]或類似的小範圍內。 – arturomp

回答

0

對於SVM的工作,「所有」你需要有一個內核功能。

那麼什麼是你的「DNA字符串」的明智的核函數?你可能不需要能夠證明它是一個合適的核心,但是你可以用一個很好的相似性度量來逃避。

你會如何評估序列的相似性?我無法幫助你,因爲我不知道數據的含義。這取決於用戶(即你)的指定。

+0

感謝您花時間回覆。目前,我使用的是RBF內核,我選擇它的方式是執行10次交叉驗證並選擇較少的錯誤百分比。數據面向金融市場,我簡單地設置:Bar up = 1,Bar down = 0,然後我開始順序趨勢。 Data1指定趨勢類型,1 =趨勢上升,-1 =趨勢下跌。 Data2 =小節數量,Data3 =小節數量Up,Data4 =小節數量下降。 –