0

我想了解代碼示例Deep Neural Network Regression with Boston Data使用TensorFlow加載波士頓房屋數據集

該數據集被描述爲here。它有14個屬性。

該示例使用以下代碼加載數據。

# Load dataset 
boston = learn.datasets.load_dataset('boston') 
x, y = boston.data, boston.target 

當我想知道更多關於xy,我有以下。

>>> type(x) 
<type 'numpy.ndarray'> 
>>> type(y) 
<type 'numpy.ndarray'> 
>>> x.shape 
(506, 13) 
>>> y.shape 
(506,) 
>>> 

我的問題:

  1. 爲什麼數據集已經被分成兩個對象一個13個屬性和其他與1?
  2. 這個部門的基礎是什麼?

回答

1

boston.data中的13列是您的功能。 boston.target中的1列是您的目標。分割完成的原因是因爲大多數時候,機器學習算法需要將特徵和目標作爲單獨的數據結構。 load_datasets函數通過拆分MDEV列來簡化您的工作,因爲大多數時候,這是人們想要預測的功能。換句話說,load_data集合的設計者假設你想嘗試找到基於其他13個特徵的中位房價。

您不必這樣做。您可以選擇任何功能作爲您的目標。假設你想預測RM,每個房間的平均房間數量。只需將MDEV列合併回boston.data並拆分RM即可。然後用RM作爲你的目標。

順便說一句,你提供的鏈接是壞的,所以我谷歌它想出了這個Boston Housing price tutorial。如果你想在張量流中做迴歸,它看起來相當完整