當您處理數百個類別時,一個熱門編碼聽起來不是一個好主意,其中一列是「名字」的數據集。編碼這類數據的最佳方法是什麼?將大量分類變量編碼爲輸入數據
1
A
回答
1
我推薦的散列招:
https://en.wikipedia.org/wiki/Feature_hashing#Feature_vectorization_using_the_hashing_trick
它的廉價計算,使用方便,允許你指定的維度,並經常作爲分類的良好基礎。
對於您的特定應用程序,我會散列特徵值對,例如('FirstName','John'),然後增加散列值的存儲桶。
1
如果您有大量的類別,分類算法效果不佳。相反,有一個更好的方法來做到這一點。您對數據應用迴歸算法,然後在這些輸出上訓練偏移量。它會給你更好的結果。
示例代碼可以找到here。
相關問題
- 1. 熊貓將數字變量重新編碼爲分類變量
- 2. 輸入整數 - 將值輸入到數據類型變量float
- 3. SPSS將變量數據從多個變量重新編碼爲布爾變量
- 4. 表格輸入號碼最大變量
- 5. 將分類變量轉換爲數字
- 6. 重新編碼分類變量/因素
- 7. 在libsvm中編碼分類變量
- 8. 輸入中的分類變量
- 9. 將數值變量更改爲分類變量?
- 10. 將分類變量轉換爲事件計數變量R
- 11. 將數據掩碼引導變量傳遞給simple_form輸入?
- 12. 將php數組編碼爲js變量缺少一些數據?
- 13. 將輸入插入變量
- 14. 將輸入值分配給雙變量
- 15. 將輸入日期分配給變量
- 16. 將分類變量重新分類爲另一個分類變量?
- 17. 將BigQuery與大量數據結構化爲輸入構造
- 18. 如何在C++中爲每個輸入分配變量而無需輸入大量輸入?
- 19. 將輸入值設置爲Javascript變量
- 20. 將用戶輸入存儲爲變量
- 21. 將鍵盤輸入保存爲變量
- 22. 將輸出插入變量
- 23. 將輸入分解爲矢量
- 24. 將輸入字符*拆分爲向量
- 25. 用大量輸入存儲數據
- 26. 將變量重新編碼爲R中的兩個新變量
- 27. 將兩個變量重新編碼爲一個新變量
- 28. 將非互斥變量重新編碼爲互斥變量
- 29. 將多個類的硬編碼變量重構爲一個全局變量?
- 30. Laravel集體將PHP變量添加到輸入類型編號