2017-08-03 40 views
1

我們試圖根據它們的屬性值來預測銷售量。我們有大約8000條訓練數據記錄。通過添加小的變化來增加訓練數據是正確的相同8000條記錄的銷售數量? 我想準備帶有24000(3 * 8000)個記錄的新訓練集,銷售數量爲+或對於那些8000記錄爲-0.1人工增加隨機森林和神經網絡的迴歸訓練數據

例如:與原始數據銷售數量= 2一樣,新數據將具有2,2.1和1.9爲同一項目。

+3

這是一個在crossValidated或datascience.stackexchange.com上發佈的方法問題。我建議你從這裏刪除問題並詢問其中的某個網站。 – lmo

+4

這個問題在DataScience或CrossValidated棧中更合適,因爲它涉及的概念計算不僅僅是代碼。如前所述,如果我正確地理解了你,你會問你是否應該稍微改變預測因子,並創建更多的數據來嘗試構建更強大的預測指標。我的答案是否定的!你將基於噪音進行訓練,這不會構建出更好的模型。從當前數據中引導是一種更好的方法,它是隨機森林採樣方法的基礎。 – sconfluentus

回答

0

變化的有用性取決於屬性的標量。例如,如果你的特徵範圍是(0-100),加上+/- 0.1是無用的。如果是(0 < x < +1,只是一個例子),那麼是的,這些變化可以產生很大的不同。

我認爲一個更好的方法是標準化您的數據(http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html)然後添加變化。

如果您有分類數據,您可以根據需要將它們轉換爲虛擬變量(https://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html)。

0

壞主意!因爲直覺上它不會真的有幫助。它可能不必要地過度使用隨機森林或NN模型。