2014-09-19 51 views
1
存儲

我使用下面的代碼與python/pandas存儲在HDFStore有很多NaN值的大數據集後:回來楠值HDFStore

with get_store(work_path+'/stores/store.h5') as store: 
     for chunk in reader: 
      for column in column_list: 
       store.append('%s' % column, chunk[column], 
          data_columns=column) 

然後,我要加載的第一列作爲numpy數組,所以我有:

array = store.select(column_list[0]).as_matrix() 

的問題是,我得到一個微小的陣列而沒有任何初始NaN值的,因爲當我存儲在t時的數據他存儲,它有點「忘記」NaN值,只保留非NaN值及其索引。我怎樣才能找回初始值爲NaN的數組?

回答

4

你需要傳遞dropna=False,看到here

僅供參考,你基本上是創建一個列存儲(這可能會或可能不適合你的問題更好)。