pytables

4熱度

1回答

我試圖覆蓋hdf5文件中的熊貓數據幀。每次我這樣做時，文件大小都會增長，而存儲的幀內容相同。如果我使用mode ='w'，那麼我失去了所有其他記錄。這是一個錯誤還是我錯過了什麼？ import pandas df = pandas.read_csv('1.csv') for i in range(100): store = pandas.HDFStore('tmp.h5')

0熱度

1回答

如何使用pytables截斷HDF5文件中的EARRAY？

我有一個HDF5文件，其中包含一個非常大的EARRAY，我想截斷它以節省磁盤空間並更快地處理它。我在包含EARRAY的節點上使用truncate方法。 pytables報告數組已被截斷，但仍佔用磁盤上相同的空間。目錄列表截斷前： $ ll total 3694208 -rw-rw-r-- 1 chris 189 Aug 27 13:03 main.py -rw-rw-r-- 1 chris

1熱度

1回答

將多節點PyTable轉換爲bcolz

我在用bcolz試驗一下，看它是否與我需要做的兼容。我有一個由大約1100萬行和大約120列組成的數據集。該數據當前以HDF5文件以PyTables「表」格式存儲。數據在HDF5文件中被分成幾個「組」（單獨的節點），每個包含不同的列。我想要做的就是將所有這些數據轉換成磁盤上的bcolz ctable，而不是一次全部讀入內存。我能夠做這做那的第一組（basic是集團之一的名稱）： bcolz.ct

2熱度

1回答

Python：如何有效地將2d numpy數組保存到磁盤？

我有一個巨大的2d numpy數組，假設它是一個共生矩陣。我試圖使用scipy.sparse作爲我的數據結構，但dok_matrix索引非常慢（速度慢4倍）。 # Impossible import numpy N = 1000000 (1 milion) coo = np.zeros((N, N), dtype=np.uint32) 我想堅持這個數組。找到保存方法之後，我嘗試使用Py

0熱度

1回答

PyTables'array上的參數

我遇到了NumPy的參數問題。它在內存中創建一個int64數組，其長度爲輸入數組的長度。由於我正在處理非常大的數組，所以這會打擊內存。我用一個小PyTables的carray測試了NumPy的argsort，它給出了正確的輸出。現在，我想要的是排序算法直接與PyTables的數組一起工作。有沒有辦法使用標準的NumPy調用或簡單的入侵NumPy內部？我也對非NumPy替代品開放 - 我只想完成

1熱度

1回答

熊貓to_hdf成功，但然後read_hdf失敗

熊貓to_hdf成功，但然後read_hdf失敗時，我使用自定義對象作爲列標題（我使用自定義對象，因爲我需要在其中存儲其他信息）。有什麼方法可以使這項工作？或者這只是一個熊貓錯誤或PyTables錯誤？舉個例子，下面，我將展示第一製造數據幀foo使用字符串列標題，一切工作正常to_hdf/read_hdf，但後來改變FOO使用自定義Col類列標題，to_hdf仍然有效不錯，但隨後read_hd

0熱度

1回答

PyTables ValueError異常上字符串列與較新的熊貓

問題寫入大熊貓數據幀（時間序列），以使用pytables/tstables HDF5： import pandas import tables import tstables # example dataframe valfloat = [512.3, 918.8] valstr = ['abc','cba'] tstamp = [1445464064, 1445464013] d

3熱度

1回答

將數據集轉換爲HDF5數據集

我有一個數據集，我想將其轉換爲HDF5格式。這是一個來自NOAA的數據集。目錄結構是這樣的： NOAA ├── code ├── ghcnd_all ├── ghcnd_all.tar.gz ├── ghcnd-stations.txt ├── ghcnd-version.txt ├── readme.txt └── status.txt 我與大熊貓數據分析工作。我對此感興趣

2熱度

1回答

打開損壞的PyTables HDF5文件

我希望在打開損壞的HDF5文件有所幫助。我通過Pandas訪問PyTables，但pd.read_hdf()呼叫產生以下錯誤。我不知道PyTables的內部工作原理。我認爲錯誤的形成是因爲過程保存到文件（每10秒左右追加）得到了複製，所以當時有2個相同的過程追加。我不知道爲什麼這會破壞文件，而不是重複的數據，但兩個錯誤發生一起這就是爲什麼我認爲他們是因果關係。 ---------------

1熱度

1回答

從HDF5獲取表索引的最有效方法

我有一個包含pandas Series/DataFrame表的HDF5文件。我需要在HDF一鍵下存儲的表格（熊貓）指數，但不一定是整個表：我能想到兩個（實際上是相同的）獲得該指數的方法： import pandas as pd hdfPath = 'c:/example.h5' hdfKey = 'dfkey' # way 1: with pd.HDFStore(hdfPath) as