2015-06-10 59 views

回答

1

在數據挖掘中,您使用的功能數量,準確性以及生成模型所用的時間之間存在多方面的折衷。理論上,你需要包含所有可能的功能來提高準確性;然而,以這種方式進行數據挖掘可確保模型生成時間長。此外,當樹有數千個節點時,生成像J48這樣的文本決策樹的模型並不是那麼有用。

根據您開始使用的功能數量,您可能希望刪除不能提供足夠大信息增益的功能。如果您有少量功能(例如少於20個),則保留所有功能可能是有意義的。

如果您希望限制您使用的功能數量,最好選擇信息增益最高的功能。查看主要組件縮減(可通過WEKA完成)等功能以幫助選擇最佳功能也是值得的。