2017-10-17 36 views
0

我需要從我的數據庫檢索數據與weka挖掘,但一些數據在有關表中缺少,我應該手動改進與這些缺少的屬性的arff文件? 在我的工作中,我有一張參加特定課程的人員(身份證,姓名,年齡,國籍,專業,等級,電子郵件,密碼)。所以根據他們的檔案(等級,專業)和他們的蹤跡(見課程視頻或否,有一個帳戶或已經創建了一個新帳戶),我需要確定他是否參加課程或不參加課程的概率。 所以這裏的缺失值是see-video(yes,no)和account(new,no)。 我是新的數據挖掘和weka,我希望這個想法很清楚。 謝謝!缺少的數據爲weka datamining檢索

回答

0

首先,您需要考慮一些數據丟失的含義。它是否隨機完全丟失,就好像某人已經完成了一個數據集並且用擲骰子來決定刪除哪些數據?或者數據丟失的事實可以給你一些關於實例的信息?例如,如果您沒有關於是否有人創建帳戶的數據,也許這意味着他們拒絕分享這些數據,並且該類別的人實際上不太可能參加課程?

一些技術,例如常用的J48樹分類器,可以處理丟失的數據。實質上,J48將一個實例的缺失值視爲所有屬性不存在的屬性的聚合值。如果數據完全隨機丟失,那應該會給出有效的結果。

其他技術無法應對丟失的數據,如果您想使用其中一種方法,則必須從數據中刪除屬性或實例,直到沒有剩餘數據丟失或者用某些東西替換丟失的值允許使用這些屬性和實例,或者這些方法的一些組合。一種典型的方法是用數值屬性的非缺失值的平均值或名義屬性的最常見的非缺失值替換缺失值,但也可以用您選擇的不同值替換缺失值 - 你甚至可以將'缺失'視爲一個新的,單獨的名義屬性值。

Weka擁有過濾器,可以在執行分類之前爲您執行這些操作,因此您不必親自進入和編輯.arff數據。