pytables

    4熱度

    1回答

    我試圖覆蓋hdf5文件中的熊貓數據幀。每次我這樣做時,文件大小都會增長,而存儲的幀內容相同。如果我使用mode ='w',那麼我失去了所有其他記錄。 這是一個錯誤還是我錯過了什麼? import pandas df = pandas.read_csv('1.csv') for i in range(100): store = pandas.HDFStore('tmp.h5')

    0熱度

    1回答

    我有一個HDF5文件,其中包含一個非常大的EARRAY,我想截斷它以節省磁盤空間並更快地處理它。我在包含EARRAY的節點上使用truncate方法。 pytables報告數組已被截斷,但仍佔用磁盤上相同的空間。 目錄列表截斷前: $ ll total 3694208 -rw-rw-r-- 1 chris 189 Aug 27 13:03 main.py -rw-rw-r-- 1 chris

    1熱度

    1回答

    我在用bcolz試驗一下,看它是否與我需要做的兼容。我有一個由大約1100萬行和大約120列組成的數據集。該數據當前以HDF5文件以PyTables「表」格式存儲。數據在HDF5文件中被分成幾個「組」(單獨的節點),每個包含不同的列。 我想要做的就是將所有這些數據轉換成磁盤上的bcolz ctable,而不是一次全部讀入內存。我能夠做這做那的第一組(basic是集團之一的名稱): bcolz.ct

    2熱度

    1回答

    我有一個巨大的2d numpy數組,假設它是一個共生矩陣。我試圖使用scipy.sparse作爲我的數據結構,但dok_matrix索引非常慢(速度慢4倍)。 # Impossible import numpy N = 1000000 (1 milion) coo = np.zeros((N, N), dtype=np.uint32) 我想堅持這個數組。 找到保存方法之後,我嘗試使用Py

    0熱度

    1回答

    我遇到了NumPy的參數問題。它在內存中創建一個int64數組,其長度爲輸入數組的長度。由於我正在處理非常大的數組,所以這會打擊內存。 我用一個小PyTables的carray測試了NumPy的argsort,它給出了正確的輸出。現在,我想要的是排序算法直接與PyTables的數組一起工作。有沒有辦法使用標準的NumPy調用或簡單的入侵NumPy內部? 我也對非NumPy替代品開放 - 我只想完成

    1熱度

    1回答

    熊貓to_hdf成功,但然後read_hdf失敗時,我使用自定義對象作爲列標題(我使用自定義對象,因爲我需要在其中存儲其他信息)。 有什麼方法可以使這項工作?或者這只是一個熊貓錯誤或PyTables錯誤? 舉個例子,下面,我將展示第一製造數據幀foo使用字符串列標題,一切工作正常to_hdf/read_hdf,但後來改變FOO使用自定義Col類列標題,to_hdf仍然有效不錯,但隨後read_hd

    0熱度

    1回答

    問題寫入大熊貓數據幀(時間序列),以使用pytables/tstables HDF5: import pandas import tables import tstables # example dataframe valfloat = [512.3, 918.8] valstr = ['abc','cba'] tstamp = [1445464064, 1445464013] d

    3熱度

    1回答

    我有一個數據集,我想將其轉換爲HDF5格式。 這是一個來自NOAA的數據集。 目錄結構是這樣的: NOAA ├── code ├── ghcnd_all ├── ghcnd_all.tar.gz ├── ghcnd-stations.txt ├── ghcnd-version.txt ├── readme.txt └── status.txt 我與大熊貓數據分析工作。我對此感興趣

    2熱度

    1回答

    我希望在打開損壞的HDF5文件有所幫助。我通過Pandas訪問PyTables,但pd.read_hdf()呼叫產生以下錯誤。我不知道PyTables的內部工作原理。 我認爲錯誤的形成是因爲過程保存到文件(每10秒左右追加)得到了複製,所以當時有2個相同的過程追加。我不知道爲什麼這會破壞文件,而不是重複的數據,但兩個錯誤發生一起這就是爲什麼我認爲他們是因果關係。 ---------------

    1熱度

    1回答

    我有一個包含pandas Series/DataFrame表的HDF5文件。我需要在HDF一鍵下存儲的表格(熊貓)指數,但不一定是整個表: 我能想到兩個(實際上是相同的)獲得該指數的方法: import pandas as pd hdfPath = 'c:/example.h5' hdfKey = 'dfkey' # way 1: with pd.HDFStore(hdfPath) as