2013-06-24 65 views
1

我正在處理一個分類問題,它有不同的傳感器。每個傳感器收集一組數字值。使用weka分類傳感器數據

我認爲它是一個分類問題,並希望使用weka作爲這個問題的ML工具。但我不確定如何使用weka來處理輸入值?哪個分類器最適合這個問題(一個特徵的一個實例是一組數值)?

例如,我有三個傳感器A,B,C。我可以從所有傳感器中定義5個採集的數據嗎?例如,A的一個實例是{1,2,3,4,5,6,7},B的一個實例是{3,434,534,213,55,4,7)。 13 C {424,24,24,13,24,5,6}。

非常感謝您花時間回顧我的問題。

+1

你想預測什麼?你的預測有什麼輸入? –

+0

輸入是各種傳感器數據,都是數值。輸出是標稱值。謝謝 – Foreverniu

回答

5

常用的第一分是嘗試樸素貝葉斯(您可以在Weka的「貝葉斯」目錄下找到它),因爲它的快速,參數少,分類精度是很難被擊敗,只要訓練樣本很小。

隨機森林(你可以在Weka的「樹」目錄下找到它)是另一個令人愉快的分類器,因爲它處理幾乎任何數據。只要運行它,看看它是否會給出更好的結果。只需要將樹的數量從默認值10增加到某個更高的值即可。既然你有7個屬性,那麼100棵樹就足夠了。

然後我會嘗試K-NN(您可以在Weka中「偷懶」目錄下找到它,這就是所謂的「IBK」),因爲它通常行列量的最佳單分類爲廣泛的數據集。 k-nn唯一的問題是它對於大數據集(> 1GB)的縮放比較嚴重,它需要微調鄰居數量k。該值默認設置爲1,但隨着訓練樣本數量的增加,通常最好將其設置爲範圍從2到60的某個更高的整數值。

最後,對於某些數據集,其中既有樸素貝葉斯和k -nn性能較差,最好使用SVM(在「Functions」下,它被稱爲「Lib SVM」)。然而,設置SVM的所有參數以獲得有競爭力的結果可能會很麻煩。因此,當我已經知道分類精度會達到什麼程度時,我就會告終。如果您有兩個以上的類別進行分類,則此分類器可能不是最方便的。

+0

謝謝。你的回答非常有幫助 – Foreverniu

+0

神經網絡呢?你說隨機森林對每種數據都很好,對此算法是不是這樣?謝謝 ! –