處理稀疏+非稀疏數據以創建模型的最佳方法

我在想什麼是處理稀疏+非稀疏數據的最佳方法。使用scikit學習的嶺迴歸。處理稀疏+非稀疏數據以創建模型的最佳方法

Ridge可以處理稀疏和非稀疏數據。

想象一下簡單的description（文本）字段，該字段獲取Count/Tdidf Vectorized（稀疏）和income連續變量。

現在想象一下，我們有幾個其他文本字段和其他幾個連續變量。

模擬一些連續的y變量的最佳方法是什麼？

我已經考慮過製作兩個獨立的模型（一個使用稀疏數據，一個使用非稀疏數據）並且以某種方式嘗試組合。

我也考慮過使用PCA將稀疏數據轉換爲「可處理」數量的連續特徵。

你通常如何解決這個問題？

注意：連續變量會有許多獨特的值（並且當將連續轉換爲分箱時您將失去電源），並且文本字段可能最終具有百萬個特徵，因此無法變得密集。

-1

這個回覆可能有點偏離上下文，但我想通過「Ridge可以處理稀疏和無稀疏數據」來理解？我試圖在R中運行邏輯迴歸模型，其中包含所有文本字段，但是，我的因變量非常稀疏。只有.9％。你認爲Ridge會是一個很好的算法嗎？

2015-10-23 08:02:34 user2779741

回答