2

如何從CSV文件(例如Titanic dataset)獲取分類和連續數據,並將其轉換爲Tensorflow的良好格式,而不使用tf.learn API(即純Tensorflow) ?在純Tensorflow中混合分類和連續數據

例如,

  • 分類數據可能會(對我來說) 'vehicle_make', 'vehicle_model'
  • 連續數據可能是 '價格', '里程'

我然後想要將該數據用作多層感知器神經網絡的輸入,如下例所示:

https://github.com/aymericdamien/TensorFlow-Examples/blob/master/notebooks/3_NeuralNetworks/multilayer_perceptron.ipynb

乾杯,

巴茲

回答

3

您可以使用分類數據的一個熱編碼。

基本上可以映射到vehicle_model數值

特斯拉的S - > 1

福克斯 - > 2

... - >我

然後使用與所有矢量0和0表示該值:

特斯拉S - > [1,0,0]

福特福克斯 - > [0,1,0]

tensorflowscikit learn有功能做到這一點。

將連續的數據作爲輸入向量的值之一包含在內。

+0

我是否需要將連續值縮放到0到1之間?如果是的話,你如何推薦這樣做?乾杯。 –

+1

正常化輸入數據幾乎總是一個明智的步驟,只要確保所有數據都以相同的方式進行歸一化處理,並且測試數據不會將任何信息泄露給trainig集e.t.c。 – hamilyon