我想了解如何正確使用R包FSelector,特別是它的information.gain函數。 According to the documentation:FSelector information.gain衡量什麼?
information gain = H(class) + H(attribute) - H(class,attribute)
這些數量是什麼意思?它們與信息增益的標準定義有何關係?據我所知,由於attribute = H(S) - sum p(S_i)H(S_i)
的信息增益,其中H(.)
是熵; S
是未分區的集合; S_i
是屬性誘導的S
的子集;和p(S_i) = |S_i|/|S|
。
我也想知道是否有任何其他包使用信息增益的概念。
謝謝您的幫助。
簡歷上的這個答案可能是你的興趣所在:http://stats.stackexchange.com/questions/161429/why-would-perfectly-similar-data-have-0 -mutual-information/161443#161443 – Tim