2013-05-30 21 views
5

看着Kaggel的Job Salary Prediction,我看到數字特徵(如Category)和文本特徵(如FullDescription)。如何處理文本和數字特徵的組合?

我該如何去關於這些數據的培訓?我想過使用TfidfTransformer對文本進行向量化,但是它創建了許多學習算法(例如RandomForestRegressor)拒絕使用的稀疏矩陣。另外,一旦我有文本的特徵向量,我該如何將它與其他功能結合起來?

關於如何使用這些數據的任何指針?

謝謝!

回答

5

我首先要獨立學習每個文本字段的tf-idf特徵的線性模型,並將線性模型預測作爲附加特徵添加到其他特徵,並在組合要素上訓練ExtraTreesRegressorGradientBoostedTreeRegressor

+0

謝謝,這是一個好主意 - 我會試試看。 – lazy1

+0

讓我們知道組合模型是否比文本要素上的線性模型或非文本要素上的隨機森林更好。 – ogrisel

+0

BTW:哪個迴歸器與稀疏矩陣一起工作? – lazy1

相關問題