1
Weka的J48允許我們檢查整套屬性的信息增益,我應該使用這些重要屬性來構建我的模型嗎?還是應該使用全套屬性?僅使用重要屬性,或在檢查信息增益後使用全套屬性來構建J48模型?
Weka的J48允許我們檢查整套屬性的信息增益,我應該使用這些重要屬性來構建我的模型嗎?還是應該使用全套屬性?僅使用重要屬性,或在檢查信息增益後使用全套屬性來構建J48模型?
在數據挖掘中,您使用的功能數量,準確性以及生成模型所用的時間之間存在多方面的折衷。理論上,你需要包含所有可能的功能來提高準確性;然而,以這種方式進行數據挖掘可確保模型生成時間長。此外,當樹有數千個節點時,生成像J48這樣的文本決策樹的模型並不是那麼有用。
根據您開始使用的功能數量,您可能希望刪除不能提供足夠大信息增益的功能。如果您有少量功能(例如少於20個),則保留所有功能可能是有意義的。
如果您希望限制您使用的功能數量,最好選擇信息增益最高的功能。查看主要組件縮減(可通過WEKA完成)等功能以幫助選擇最佳功能也是值得的。