我的一個學生正在使用scikit-learn包中的糖尿病數據集來熟悉機器學習。她需要寫一份關於這方面的報告,並且向我詢問這些數據最初來自哪裏。我們發現的唯一來源未指定可能產生此數據的原始出版物或隊列研究。有誰知道這些數據來自哪裏?我們發現sckikit學習數據集的起源
參考文獻:
Least Angle Regression, by Efron et al. 2003(表1) [編輯]本文被引爲在文檔中的引用,但是它不包括有關的任何信息誰抽樣了數據集(原始科學出版物),哪個隊列來自哪個國家。沒有實質性跡象表明這些數據沒有被編制。這些數據是來自真實患者還是完全人造數據集?學習如何通過scikit學習使用機器學習是很好的,但是不知道訓練集的來源是令人沮喪的。
也許[這](http://www4.stat.ncsu.edu/~boos/var.select/ diabetes.html)可以提供幫助。但是這個問題對於Stackoverflow是無關緊要的。 –