0
我在想什麼是處理稀疏+非稀疏數據的最佳方法。使用scikit學習的嶺迴歸。處理稀疏+非稀疏數據以創建模型的最佳方法
Ridge可以處理稀疏和非稀疏數據。
想象一下簡單的description
(文本)字段,該字段獲取Count/Tdidf Vectorized(稀疏)和income
連續變量。
現在想象一下,我們有幾個其他文本字段和其他幾個連續變量。
模擬一些連續的y
變量的最佳方法是什麼?
我已經考慮過製作兩個獨立的模型(一個使用稀疏數據,一個使用非稀疏數據)並且以某種方式嘗試組合。
我也考慮過使用PCA將稀疏數據轉換爲「可處理」數量的連續特徵。
你通常如何解決這個問題?
注意:連續變量會有許多獨特的值(並且當將連續轉換爲分箱時您將失去電源),並且文本字段可能最終具有百萬個特徵,因此無法變得密集。