人工增加隨機森林和神經網絡的迴歸訓練數據

我們試圖根據它們的屬性值來預測銷售量。我們有大約8000條訓練數據記錄。通過添加小的變化來增加訓練數據是正確的相同8000條記錄的銷售數量？我想準備帶有24000（3 * 8000）個記錄的新訓練集，銷售數量爲+或對於那些8000記錄爲-0.1人工增加隨機森林和神經網絡的迴歸訓練數據

例如：與原始數據銷售數量= 2一樣，新數據將具有2,2.1和1.9爲同一項目。

來源

2017-08-03 dileep balineni

這是一個在crossValidated或datascience.stackexchange.com上發佈的方法問題。我建議你從這裏刪除問題並詢問其中的某個網站。 – lmo

這個問題在DataScience或CrossValidated棧中更合適，因爲它涉及的概念計算不僅僅是代碼。如前所述，如果我正確地理解了你，你會問你是否應該稍微改變預測因子，並創建更多的數據來嘗試構建更強大的預測指標。我的答案是否定的！你將基於噪音進行訓練，這不會構建出更好的模型。從當前數據中引導是一種更好的方法，它是隨機森林採樣方法的基礎。 – sconfluentus

變化的有用性取決於屬性的標量。例如，如果你的特徵範圍是（0-100），加上+/- 0.1是無用的。如果是（0 < x < +1，只是一個例子），那麼是的，這些變化可以產生很大的不同。

我認爲一個更好的方法是標準化您的數據（http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html）然後添加變化。

如果您有分類數據，您可以根據需要將它們轉換爲虛擬變量（https://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html）。

來源

2017-08-03 15:05:25 amlaanb

壞主意！因爲直覺上它不會真的有幫助。它可能不必要地過度使用隨機森林或NN模型。

來源

2017-08-04 22:42:20 Ehsan

人工增加隨機森林和神經網絡的迴歸訓練數據

回答

相關問題