2017-06-28 66 views
-1

我的一個學生正在使用scikit-learn包中的糖尿病數據集來熟悉機器學習。她需要寫一份關於這方面的報告,並且向我詢問這些數據最初來自哪裏。我們發現的唯一來源未指定可能產生此數據的原始出版物或隊列研究。有誰知道這些數據來自哪裏?我們發現sckikit學習數據集的起源

參考文獻:

  1. The scikit-learn documentation

  2. Least Angle Regression, by Efron et al. 2003(表1) [編輯]本文被引爲在文檔中的引用,但是它不包括有關的任何信息誰抽樣了數據集(原始科學出版物),哪個隊列來自哪個國家。沒有實質性跡象表明這些數據沒有被編制。這些數據是來自真實患者還是完全人造數據集?學習如何通過scikit學習使用機器學習是很好的,但是不知道訓練集的來源是令人沮喪的。

+0

也許[這](http://www4.stat.ncsu.edu/~boos/var.select/ diabetes.html)可以提供幫助。但是這個問題對於Stackoverflow是無關緊要的。 –

回答

0
+0

謝謝,其實我也找到了,他們給出的唯一參考是「來自Bradley Efron,Trevor Hastie,Iain Johnstone和Robert Tibshirani(2004)」Least Angle Regression,「Annals of Statistics」帖子。我們閱讀了這篇文章,但沒有告訴我們是誰抽樣了數據集(原始科學出版物),哪個國家是來自哪個國家的數據集,並沒有充分說明這些數據沒有編制。這些數據是來自真實患者還是完全人造數據集? – biohazard