我在R軟件中使用SVM,我會申請您可能提供的任何輸入。 我有需要與SVM訓練數據集,所述數據的格式是我有被關於DNA柱以下SVM分類二進制數據DNA
ToPredict Data1 Data2 Data3 Data4 DNA
S 1 12 1 11 000000000100
B -1 17 14 3 11011110111110111
S 1 4 0 4 0000
問題。
支持向量機能夠獲得像DNA一樣的輸入,並仍然計算可靠的預測? 對於我的數據集,0≠00或1≠001因此,它不能被視爲整數。每個值表示需要處理的信息並且順序非常重要,它是一串二進制值,可以是1或0 。
的0101信息可被顯示爲ABAB等(A = 0,B = 1)
如何可以訓練與上面的數據的SVM?
謝謝。
嗨!我認爲這是可能的,但是你可以通過嘗試一些不同的事情來更好地回答這個問題!您可以設置您擁有的最長DNA字符串的長度作爲標準,並且對於每行,使用以下三個可能值中的一個填充該行中的列: - 1,0和-1或其他未知值。您也可以嘗試使用原始DNA字符串的長度作爲功能。如果所有列/特徵的範圍會有很大差異,那麼您可能需要考慮正常化,即將值分佈在[-1,1]或類似的小範圍內。 – arturomp