我需要從我的數據庫檢索數據與weka挖掘,但一些數據在有關表中缺少,我應該手動改進與這些缺少的屬性的arff文件? 在我的工作中,我有一張參加特定課程的人員(身份證,姓名,年齡,國籍,專業,等級,電子郵件,密碼)。所以根據他們的檔案(等級,專業)和他們的蹤跡(見課程視頻或否,有一個帳戶或已經創建了一個新帳戶),我需要確定他是否參加課程或不參加課程的概率。 所以這裏的缺失值是see-video(yes,no)和account(new,no)。 我是新的數據挖掘和weka,我希望這個想法很清楚。 謝謝!缺少的數據爲weka datamining檢索
0
A
回答
0
首先,您需要考慮一些數據丟失的含義。它是否隨機完全丟失,就好像某人已經完成了一個數據集並且用擲骰子來決定刪除哪些數據?或者數據丟失的事實可以給你一些關於實例的信息?例如,如果您沒有關於是否有人創建帳戶的數據,也許這意味着他們拒絕分享這些數據,並且該類別的人實際上不太可能參加課程?
一些技術,例如常用的J48樹分類器,可以處理丟失的數據。實質上,J48將一個實例的缺失值視爲所有屬性不存在的屬性的聚合值。如果數據完全隨機丟失,那應該會給出有效的結果。
其他技術無法應對丟失的數據,如果您想使用其中一種方法,則必須從數據中刪除屬性或實例,直到沒有剩餘數據丟失或者用某些東西替換丟失的值允許使用這些屬性和實例,或者這些方法的一些組合。一種典型的方法是用數值屬性的非缺失值的平均值或名義屬性的最常見的非缺失值替換缺失值,但也可以用您選擇的不同值替換缺失值 - 你甚至可以將'缺失'視爲一個新的,單獨的名義屬性值。
Weka擁有過濾器,可以在執行分類之前爲您執行這些操作,因此您不必親自進入和編輯.arff數據。
相關問題
- 1. 加速度計在WEKA中缺少數據和分類
- 2. 缺少我的第一行檢索數據庫
- 3. 檢查SQL中是否缺少數據
- 4. Eclipse插件:檢索缺少的HelloWorld.actionSet
- 5. 驗證缺少的數據
- 6. 缺少JSON數據
- 7. 缺少dll函數檢測
- 8. MySQL查詢檢索缺少一行
- 9. 的ReportViewer缺少數據源
- 10. 缺少數據的延遲
- 11. Android-減少檢索數據的時間
- 12. 在Dataframe中缺少數據
- 13. CakePHP:缺少數據庫表
- 14. 缺少索引:: 2
- 15. 從mysql數據庫中缺少數據
- 16. 缺少數據更新
- 17. 將缺少值的數據作爲數值數據加載
- 18. firebase檢索數據不工作 - 缺少一些簡單的東西?
- 19. MigratorDotNet缺少數據庫類
- 20. 缺少數據庫表 - CakePHP
- 21. Recode缺少數據Numpy
- 22. 缺少數據合併
- 23. MVC Action缺少數據
- 24. 缺少圖像數據
- 25. Maven - SQLite - 缺少數據庫
- 26. 在Python中缺少數據
- 27. oracle dba_identifiers缺少數據
- 28. python缺少數據pct_change
- 29. NSURLConnection sendSynchronousRequest - 缺少數據
- 30. nLog缺少日誌數據