嗨我有大的數據集,它既有字符串,也有數值 前。特徵在包含字符串和數值的數據集中進行選擇?
用戶名(STR),手機(STR),請求數量(INT),下載次數(INT),......
我有大約200個這樣的列。
是否有一種方法/算法可以在特徵選擇期間處理字符串和整數? 或者我應該如何處理這個問題。
感謝
嗨我有大的數據集,它既有字符串,也有數值 前。特徵在包含字符串和數值的數據集中進行選擇?
用戶名(STR),手機(STR),請求數量(INT),下載次數(INT),......
我有大約200個這樣的列。
是否有一種方法/算法可以在特徵選擇期間處理字符串和整數? 或者我應該如何處理這個問題。
感謝
特徵選擇算法分配權重根據其在分類的影響不同的特點。據我所知,在計算不同權重時,特徵類型沒有區別。我建議將字符串特徵轉換爲基於其ASCII碼或任何其他技術的數字。然後,您可以使用快速礦工中現有的特徵選擇算法。
您可以在RapidMiner中的Attribute Weighting組中使用一組操作符。例如,通過相關的權重或按信息增加的權重。
這些將根據與標籤的相關性(本例中爲下載標誌)來評估賦予屬性多少權重。最終的權重可以與「按權重選擇」運算符一起使用,以消除那些不需要的權重。這種方法本身考慮屬性。
您還可以構建分類模型並使用向前選擇運算符來添加更多和更多屬性並監視性能。這種方法將考慮屬性之間的關係。
我用Weka的特徵選擇,雖然屬性評估方法我試過不能處理字符串屬性在Preprocess > Filter > Unsupervised > Attribute > RemoveType
可以暫時將其刪除,然後執行特徵選擇,並且,以後,包括串再次做分類。
你的問題太寬泛了。你有什麼嘗試?你需要怎樣處理這些數據? – ecline6 2013-04-07 21:50:29
這是一個特定於軟件包的問題嗎? – 2013-04-07 21:54:41
不是一個軟件包特定的問題,但你會很高興知道哪些軟件包在這種情況下有幫助。 我有一個如上所述的數據,每列是一個功能(共200個功能),類型整數和字符串。我想知道所有功能對「下載(布爾0/1)」有什麼貢獻。所以我只想選擇那些影響「下載」的功能。我想大多數特徵選擇算法只用實數作爲輸入。 – cryp 2013-04-08 01:47:58