2015-10-16 69 views
0

我在想什麼是處理稀疏+非稀疏數據的最佳方法。使用scikit學習的嶺迴歸。處理稀疏+非稀疏數據以創建模型的最佳方法

Ridge可以處理稀疏和非稀疏數據。

想象一下簡單的description(文本)字段,該字段獲取Count/Tdidf Vectorized(稀疏)和income連續變量。

現在想象一下,我們有幾個其他文本字段和其他幾個連續變量。

模擬一些連續的y變量的最佳方法是什麼?

我已經考慮過製作兩個獨立的模型(一個使用稀疏數據,一個使用非稀疏數據)並且以某種方式嘗試組合。

我也考慮過使用PCA將稀疏數據轉換爲「可處理」數量的連續特徵。

你通常如何解決這個問題?

注意:連續變量會有許多獨特的值(並且當將連續轉換爲分箱時您將失去電源),並且文本字段可能最終具有百萬個特徵,因此無法變得密集。

回答

-1

這個回覆可能有點偏離上下文,但我想通過「Ridge可以處理稀疏和無稀疏數據」來理解?我試圖在R中運行邏輯迴歸模型,其中包含所有文本字段,但是,我的因變量非常稀疏。只有.9%。你認爲Ridge會是一個很好的算法嗎?