最近我遇到這個詞,但真的不知道它是指什麼。我在網上搜索,但收益甚微。 謝謝。數據挖掘中引導的數據是什麼?
回答
如果您沒有足夠的數據來訓練您的算法,您可以通過(統一)隨機選擇項目並複製它們(使用替換)來增加訓練集的大小。
機器學習bootstrapping是對已知集合的迭代訓練。 http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)
以週六醒來的時間爲例。有些星期五晚上你有幾杯飲料,所以你早點起牀(但要回去睡覺)。其他日子,你在正常的時間醒來。其他日子裏,你在睡覺
下面是結果:
[3.1,4.8,6.3,6.4,6.6,7.3,7.5,7.7,7.9,10.1]
什麼是平均時間你醒了?
這是6.8(上午6點48分)。早點接觸我。
預計下週六醒來的預測有多好?你能量化你可能會有多麼錯嗎?
這是一個非常小的樣本,我們不確定底層流程的分佈情況,因此使用標準參數統計技術和匕首可能不是一個好主意。
爲什麼我們不隨機抽樣樣本,並計算平均值並重復這個?這會給我們估計我們的估計有多糟糕。
我這樣做幾次,平均值爲5.98和7.8
這間被稱爲引導,它最早是由布拉德利·埃夫隆在1979年
提到的一個變體被稱爲jackknife,您可以在其中抽取除您的一個數據集之外的所有數據集,取平均值,然後重複。 jackknife的平均值是6.8(與算術平均值相同),範圍從6.4到7.2。您隨機將您的數據集分成k個大小相等的部分,計算除一個部分之外的所有部分的平均值,然後重複k次。另一個變體稱爲k-fold交叉驗證。 5倍交叉驗證平均值爲6.8,範圍從4到9.
†這種分佈確實是正常的。平均值的95%置信區間爲5.43至8.11,相當接近但比自舉平均值大。
任何關於引導可能的偏見的論文/想法? – 2013-12-06 08:47:39
我會花時間閱讀原文:http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf – 2013-12-10 07:43:15
- 1. 什麼是數據挖掘模型?
- 2. HTML數據挖掘
- 3. python數據挖掘
- 4. Kissmetrics數據挖掘
- 5. 的Oracle SQL導航數據挖掘文本挖掘
- 6. hadoop的數據挖掘庫
- 7. 數據挖掘引擎和框架?
- 8. 指導對數據挖掘項目
- 9. 什麼是車輛搜索的最佳數據挖掘方法?
- 10. 什麼是MySQL的良好數據挖掘/ BI /報告工具?
- 11. 數據挖掘 - K近鄰
- 12. 休眠4數據挖掘
- 13. JSON到R數據挖掘
- 14. 數據挖掘字符串
- 15. 數據挖掘情況
- 16. R數據挖掘語法
- 17. 「相似性」數據挖掘
- 18. Google數據挖掘工具
- 19. 從數據挖掘開始
- 20. 數據挖掘教科書
- 21. 數據挖掘海量數據
- 22. 數據挖掘和頻繁數據集
- 23. Web刮,數據挖掘,數據提取
- 24. 數據挖掘項目數據集
- 25. 將數據挖掘結構數據導出到sql表中
- 26. 什麼是知識發現和數據挖掘?
- 27. 意見挖掘 - 數據庫類型是什麼?
- 28. 在數據挖掘中構建DecisionTree
- 29. 堆積在數據挖掘中
- 30. 文本挖掘 - 什麼是挖掘描述性Excel表格數據的最佳方式
僅僅提供一個到維基百科的鏈接並不是很有幫助。它很容易找到你自己的:) – 2010-12-15 19:59:44