2017-09-14 62 views
0

我有2個csv數據源。在構建模型之前,我需要做一些數據格式化。如何使用Tensorflow從另一個數據集查找值?

============================================== =

數據源1: Plant.csv

不同植物的特徵。

PlantID, INT/
PlantName, STR/
Color, STR/
Size, FLOAT/
Cost, FLOAT/
Category, INT/
Weight, FLOAT/
Expire, INT/
STATUS, INT 

數據源2: [201601.csv,201602.csv,201603.csv ....]

每月訂單植物

PlantID, INT/
SalesPerson, STR/
Date, DATETIME/
Qty, INT/
Price, FLOAT/
Gardener, STR/
Package1, BOOL/
Package2, BOOL/
Package3, BOOL 

銷售===== ==========================

現在我打算將這些文件合併到一個文件中,如下所示:

PlantID, INT/
PlantName, STR/
Color, STR/
Size, FLOAT/
Cost, FLOAT/
Category, INT/
Weight, FLOAT/
Expire, INT/
STATUS, INT/
SalesPerson, STR/
Date, DATETIME/
Qty, INT/
Price, FLOAT/
Gardener, STR/
Package1, BOOL/
Package2, BOOL/
Package3, BOOL 

查找PlantID作爲關鍵字。

每月有數百萬的銷售記錄。

有沒有人建議如何使它與tensorflow

回答

0

Tensorflow不適用於連接數據庫。如果你真的想用python來做,你可以使用熊貓。

import pandas as pd 


df1 = pd.read_csv('Plant.csv') 
df1.set_index(['PlantID']) 
df2 = pd.read_csv('201601.csv') 
df2.set_index(['PlantID']) 

df3 = pd.concat([df1, df2], axis=1) 

Tensorflow是創建計算圖表,然後高效運行它們。一般來說,它會假設這個圖的輸入已經是一個數組。

pandas被用來在關係數據庫中使用python中的關係數據。儘管如果你可以選擇使用查詢語言在實際的關係數據庫中工作,這仍然比pandas在計算上更有效率。

相關問題