如何從熊貓HDFStore中檢索特定列?我經常使用非常大的數據集,這些數據集太大而無法在內存中操作。我想迭代讀取一個csv文件,將每個塊附加到HDFStore對象中,然後處理數據的子集。我看過一個簡單的CSV文件,用下面的代碼加載它變成一個HDFStore:從pandas.HDFStore表中選擇列
tmp = pd.HDFStore('test.h5')
chunker = pd.read_csv('cars.csv', iterator=True, chunksize=10, names=['make','model','drop'])
tmp.append('df', pd.concat([chunk for chunk in chunker], ignore_index=True))
和輸出:
In [97]: tmp
Out[97]:
<class 'pandas.io.pytables.HDFStore'>
File path: test.h5
/df frame_table (typ->appendable,nrows->1930,indexers->[index])
我的問題是我如何訪問來自tmp['df']
特定的列?該文檔提到了一個select()
方法和一些Term
對象。所提供的例子適用於Panel數據;然而,我太過於將它擴展到更簡單的數據框的情況。我的猜測是我必須以某種方式創建列的索引。謝謝!
0.10.1中的這個特性是否存在?我一直無法使用它。 github上的開放問題是什麼? – alexbw
0.10.1支持數據列;你有什麼問題? – Jeff
我想我們應該更新這個以避免混淆,傑夫? –