2010-09-16 35 views

回答

24

如果您沒有足夠的數據來訓練您的算法,您可以通過(統一)隨機選擇項目並複製它們(使用替換)來增加訓練集的大小。

35

以週六醒來的時間爲例。有些星期五晚上你有幾杯飲料,所以你早點起牀(但要回去睡覺)。其他日子,你在正常的時間醒來。其他日子裏,你在睡覺

下面是結果:

[3.1,4.8,6.3,6.4,6.6,7.3,7.5,7.7,7.9,10.1]

什麼是平均時間你醒了?

這是6.8(上午6點48分)。早點接觸我。

預計下週六醒來的預測有多好?你能量化你可能會有多麼錯嗎?

這是一個非常小的樣本,我們不確定底層流程的分佈情況,因此使用標準參數統計技術和匕首可能不是一個好主意。

爲什麼我們不隨機抽樣樣本,並計算平均值並重復這個?這會給我們估計我們的估計有多糟糕。

我這樣做幾次,平均值爲5.98和7.8

這間被稱爲引導,它最早是由布拉德利·埃夫隆在1979年

提到的一個變體被稱爲jackknife,您可以在其中抽取除您的一個數據集之外的所有數據集,取平均值,然後重複。 jackknife的平均值是6.8(與算術平均值相同),範圍從6.4到7.2。您隨機將您的數據集分成k個大小相等的部分,計算除一個部分之外的所有部分的平均值,然後重複k次。另一個變體稱爲k-fold交叉驗證。 5倍交叉驗證平均值爲6.8,範圍從4到9.

†這種分佈確實是正常的。平均值的95%置信區間爲5.43至8.11,相當接近但比自舉平均值大。

+0

任何關於引導可能的偏見的論文/想法? – 2013-12-06 08:47:39

+1

我會花時間閱讀原文:http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf – 2013-12-10 07:43:15