2017-01-08 27 views
1

我有一個很大的數據集,太大而無法放入內存中,該內存可用作HDF5或CSV。我怎樣才能以minibatches的速度將它送入Keras?此外,這會爲我洗牌,還是我需要預洗牌數據集?Keras:從HDF5和CSV加載minibatches

(我也有興趣在此,當輸入爲NumPy的recarray;因爲Keras我相信希望輸入的A ndarray)

而且,如果我想之前做一些Keras輕巧預處理學習(例如,將一些Python函數應用於數據以更改表示形式),是否可以添加?

回答

2

具有可用於Keras這裏看看fit_generator方法:https://keras.io/models/sequential/#sequential-model-methods 它適合由一個Python發生器產生一批按批次數據模型(在這裏您可以寫洗牌邏輯,因爲發電機是你的控制之下)。

您可以在發生器本身內應用呼叫預處理。

希望這會有所幫助。