2017-02-11 83 views
0

我是機器學習的新手,我有以下問題。假設我對某些數據實施了分類算法,並且識別出了分類算法的最佳特徵組合。如果有一天我從同一個資源獲取數據,而這些資源缺少之前分類任務中的目標特徵,我可以使用最佳的特徵組合直接分類任務嗎? (我知道我可以用我訓練以預測數據的目標模式,但我只是想知道的最佳特性組合是否是分類和聚類算法之間的相同)用於分類和聚類的特徵之間的關係

我已經搜索網站的任何資源,我知道,但我找不到我的問題的答案,有人告訴我,或只是給我一個鏈接?謝謝!

回答

0

我會說是,只要目標的性質在兩種情況下都是相同的。理想情況下,我們需要的是在N空間中彼此正交(垂直)的易處理數量的特徵,以便每個特徵都能最大限度地對預測作出貢獻。

舉一個具體的例子,T恤衫以及它們是大碼還是小碼。你會得到一些數據,這些數據表明在製造過程中存在一些物質收縮,這意味着T恤衫出現有點不規則,並且收縮率在高度和寬度之間變化,但不是很多。數據顯示高度,寬度和顏色,並且您想要決定它們是在大組還是小組。你發現高度和寬度很重要,但顏色不重要,所以你決定用高度和寬度作爲你的分類特徵。

重要的一點是,這兩個特徵已被確定爲最相互正交,應該應用於分類或聚類上下文中。簇的數量仍然是一個要檢查的因素。

0

這可能不夠好。

例如,可以分析決策樹或隨機森林以獲得特徵的重要性。但是這並不能告訴你需要什麼樣的預處理(特別是縮放和加權)才能將它們聚類(特別是分類特徵難以使用,任何不連續的或傾斜的都很難)。

此外,數據會隨時間而變化。曾經很重要的功能(例如Facebook喜歡)現在無用。