2017-06-27 72 views
0

我曾嘗試使用下面的命令加載的數據集MNIST:負載MNIST數據集在Sklearn友好的格式

from dataget import data 

dataset = data("mnist").get() 

如何將其轉換爲Sklearn友好的格式,即features_train,labels_train,features_test,labels_test?

我已經試過 「np.loadtxt」,但得到這個錯誤:

ValueError: could not convert string to float: data 

我也曾嘗試下面的代碼行:

df = next(dataset.training_set.random_batch_dataframe_generator(10)) 

df 

,它已返回此錯誤:

AttributeError: training_set 

請,有人可以幫助我,我一直在使用Google的替代方法,但我仍然收到錯誤。謝謝!

P.S.下面是我用來獲取MNIST數據集的另一種方式:

dataset = fetch_mldata('MNIST original') 
+0

你好。你從哪裏下載數據? –

+0

我用這行代碼,得到它: 數據集=數據(「MNIST」)得到() 我已經從數據庫MNIST –

+0

在表達式'數據(「MNIST」)中獲得它。 get()',你沒有顯示如何定義或導入名稱'data'。 –

回答

0

@ E.Z。幫我解答問題!

features, labels = dataset.data, dataset.target 

我然後將其拆分爲使用下面的代碼行培訓和試臺:

msk = np.random.rand(len(features)) < 0.8 
mrk = np.random.rand(len(labels)) < 0.8 

features_train = features[msk] 
features_test = features[~msk] 
labels_train = labels[mrk] 
labels_test = labels[~mrk]