2013-03-06 158 views
0

我擁有文檔術語數據,其中的術語以維度表示。我必須對術語進行特徵選擇,我打算使用「互信息」作爲執行特徵選擇的措施。我的疑問是,在計算所有可能的配對之間的相互信息之後,我們應該做什麼? 我應該設置一個閾值並選擇落入閾值範圍內的所有對的條款嗎?功能選擇

+0

是的,這是通常會做的事情。 – 2013-03-06 09:24:38

+0

謝謝@LarsKotthoff你能告訴我們什麼基礎上我們可以決定的門檻? – pooja 2013-03-06 10:17:58

+0

取決於您的具體數據以及您想保留多少功能。理想情況下,您會發現突然發生重大變化,從幾乎沒有互信息到大量相互信息,這些信息會告訴您在哪裏放置閾值。實際上,情況可能並非如此。 – 2013-03-06 10:19:34

回答

1

如果你想使用互信息,你可以考慮使用mRMR algrorithm。您可以使用此類算法來選擇要素。我的意思:

You have n features at your data set (it means n dimensions) 

如果你想使用最有意義的

k of n (k < n) 

您可以使用(使用互信息的背景即與MRMR)特徵選擇

決定ķ依賴在某些情況下。

  • 其中之一是你不想在你的 模型創建中使用不必要的功能。

  • 另一件事是要aviod計算成本,並從數據中刪除一些 功能設置

你刪除了一些功能後,您應該測試你的算法。你檢查精度是否提高,並根據你的目標,即使精度下降,從而避免計算成本(所以你可能想要放棄一些功能)

另一方面,我建議你看功能提取方法,即PCA和LDA(尤其適合您的情況)。

+0

mRMR需要在手之前知道類(監督)。什麼樣的方法應該用於特徵選擇時不知道類標籤? – pooja 2013-03-07 09:34:00