數據挖掘中引導的數據是什麼？

最近我遇到這個詞，但真的不知道它是指什麼。我在網上搜索，但收益甚微。謝謝。數據挖掘中引導的數據是什麼？

來源

2010-09-16 Kevin

如果您沒有足夠的數據來訓練您的算法，您可以通過（統一）隨機選擇項目並複製它們（使用替換）來增加訓練集的大小。

來源

2010-09-18 14:02:14

機器學習bootstrapping是對已知集合的迭代訓練。 http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)

來源

2010-09-16 09:35:21 leonm

僅僅提供一個到維基百科的鏈接並不是很有幫助。它很容易找到你自己的:) – 2010-12-15 19:59:44

以週六醒來的時間爲例。有些星期五晚上你有幾杯飲料，所以你早點起牀（但要回去睡覺）。其他日子，你在正常的時間醒來。其他日子裏，你在睡覺

下面是結果：

[3.1，4.8，6.3，6.4，6.6，7.3，7.5，7.7，7.9，10.1]

什麼是平均時間你醒了？

這是6.8（上午6點48分）。早點接觸我。

預計下週六醒來的預測有多好？你能量化你可能會有多麼錯嗎？

這是一個非常小的樣本，我們不確定底層流程的分佈情況，因此使用標準參數統計技術和匕首可能不是一個好主意。

爲什麼我們不隨機抽樣樣本，並計算平均值並重復這個？這會給我們估計我們的估計有多糟糕。

我這樣做幾次，平均值爲5.98和7.8

這間被稱爲引導，它最早是由布拉德利·埃夫隆在1979年

提到的一個變體被稱爲jackknife，您可以在其中抽取除您的一個數據集之外的所有數據集，取平均值，然後重複。 jackknife的平均值是6.8（與算術平均值相同），範圍從6.4到7.2。您隨機將您的數據集分成k個大小相等的部分，計算除一個部分之外的所有部分的平均值，然後重複k次。另一個變體稱爲k-fold交叉驗證。 5倍交叉驗證平均值爲6.8，範圍從4到9.

＆dagger;這種分佈確實是正常的。平均值的95％置信區間爲5.43至8.11，相當接近但比自舉平均值大。

來源

2010-11-30 08:22:22

任何關於引導可能的偏見的論文/想法？ – 2013-12-06 08:47:39

我會花時間閱讀原文：http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf – 2013-12-10 07:43:15

數據挖掘中引導的數據是什麼？

回答

相關問題