功能選擇

2013-03-06 158 views 0 likes

我擁有文檔術語數據，其中的術語以維度表示。我必須對術語進行特徵選擇，我打算使用「互信息」作爲執行特徵選擇的措施。我的疑問是，在計算所有可能的配對之間的相互信息之後，我們應該做什麼？我應該設置一個閾值並選擇落入閾值範圍內的所有對的條款嗎？功能選擇

2013-03-06 pooja

是的，這是通常會做的事情。 – 2013-03-06 09:24:38

謝謝@LarsKotthoff你能告訴我們什麼基礎上我們可以決定的門檻？ – pooja 2013-03-06 10:17:58

取決於您的具體數據以及您想保留多少功能。理想情況下，您會發現突然發生重大變化，從幾乎沒有互信息到大量相互信息，這些信息會告訴您在哪裏放置閾值。實際上，情況可能並非如此。 – 2013-03-06 10:19:34

回答

如果你想使用互信息，你可以考慮使用mRMR algrorithm。您可以使用此類算法來選擇要素。我的意思：

You have n features at your data set (it means n dimensions)

如果你想使用最有意義的

k of n (k < n)

您可以使用（使用互信息的背景即與MRMR）特徵選擇

決定ķ依賴在某些情況下。

你刪除了一些功能後，您應該測試你的算法。你檢查精度是否提高，並根據你的目標，即使精度下降，從而避免計算成本（所以你可能想要放棄一些功能）

另一方面，我建議你看功能提取方法，即PCA和LDA（尤其適合您的情況）。

2013-03-06 13:17:08 kamaci

mRMR需要在手之前知道類（監督）。什麼樣的方法應該用於特徵選擇時不知道類標籤？ – pooja 2013-03-07 09:34:00

相關問題