5
看着Kaggel的Job Salary Prediction,我看到數字特徵(如Category)和文本特徵(如FullDescription)。如何處理文本和數字特徵的組合?
我該如何去關於這些數據的培訓?我想過使用TfidfTransformer對文本進行向量化,但是它創建了許多學習算法(例如RandomForestRegressor)拒絕使用的稀疏矩陣。另外,一旦我有文本的特徵向量,我該如何將它與其他功能結合起來?
關於如何使用這些數據的任何指針?
謝謝!
謝謝,這是一個好主意 - 我會試試看。 – lazy1
讓我們知道組合模型是否比文本要素上的線性模型或非文本要素上的隨機森林更好。 – ogrisel
BTW:哪個迴歸器與稀疏矩陣一起工作? – lazy1