pytables

    5熱度

    1回答

    我試圖壓縮我的數組這樣 import numpy as np import tables from contextlib import closing FILTERS = tables.Filters(complib='zlib', complevel=5) data = np.zeros(10**7) with closing(tables.open_file('compress

    2熱度

    2回答

    想要使用pytables在HDF5數據庫文件中訪問/創建任意組。 該文件具有以下結構: db |_ user_00 # Group |_ subjectTable # TableObject |_ subject_00 # GroupObject 在註冊一個新的課題意味着添加一行到subjectTable並與主題名稱 創建一個組,所以我有: def

    1熱度

    1回答

    我想了解理想的方式來組織熊貓內的數據以實現最佳的聚合性能。我正在處理的數據是yyyy-mm.csv格式,我只是在read_csv中,然後是to_hdf。它通常看起來有點像這樣: 的ObjectID時間戳至尊ParamB - > ParamZ 1 2013-01-01 00:00:00 1 9 2 2013-01-01 00:00:00 3 2 1 2013-01-01 00:10:00 8 11

    0熱度

    1回答

    我有一堆N字節塊的二進制數據,其中每個塊恰好對應於PyTables表的一行。 現在我正在將每個塊解析爲字段,將它們寫入錶行中的各個字段,並將它們附加到表中。 但是,這似乎有點傻,因爲PyTables要將我的結構化數據轉換回平面二進制格式以包含在HDF5文件中。 如果我需要優化執行此操作所需的CPU時間(我的數據大量突發),是否有更高效的方式將數據直接加載到PyTable中?

    6熱度

    2回答

    要在磁盤上存儲大矩陣,我使用numpy.memmap。 這裏是一個示例代碼來測試大矩陣乘法: import numpy as np import time rows= 10000 # it can be large for example 1kk cols= 1000 #create some data in memory data = np.arange(rows*cols, dt

    2熱度

    1回答

    我想弄清楚什麼是在pytables中存儲時間值對的最有效方法。我正在使用pytables,因爲我正在處理大量的數據。我需要對數據進行計算(平均值,插值等)。我不知道提前行數。 我知道EArray可以被附加到,就像表格一樣。有沒有理由選擇一個呢? 由於我簡單的數據結構(均相時間值對)我想通了EArray會更快/最有效的,但是從pytables創建者下面引用自己扔我: 」 ... PyTables是特

    2熱度

    1回答

    我在pytables中有很長的數組和時間值對錶。我需要能夠對這些數據執行線性插值和零階保持插值。 目前,我使用pytables的列式切片符號將列轉換爲numpy數組,然後將numpy數組提供給scipy.interpolate.interp1d以創建插值函數。 有沒有更好的方法來做到這一點? 我問的原因是,我的理解是將列轉換爲numpy數組基本上會將它們複製到內存中。這意味着當我開始運行我的代碼時

    1熱度

    1回答

    是否有首選方法檢查pandas HDFStore中的PyTables節點是否是表格?這有效,但NoSuchNodeError似乎不是API的一部分,所以也許我不應該依賴它。 In [34]: from tables.table import NoSuchNodeError In [35]: def is_tabular(store, key): try: store.ge

    0熱度

    1回答

    我剛剛創建並填充了我的第一個PyTables文件。試圖查詢數據,我遇到了一個問題。有一列ic_name,其類型爲StringCol(500),我已爲此列創建索引。下面的代碼工作正常: count = 0 for x in f.root.raw.projects: if x['ic_name']=="XXX": count += 1 的count值是有點超過200.000

    1熱度

    1回答

    我需要使用numexpr重寫此代碼,它計算矩陣數據[行x列]和向量[1 x列]的歐幾里得範數矩陣。 d = ((data-vec)**2).sum(axis=1) 該怎麼辦?也許還有另一種更快的方法? 我使用hdf5和數據矩陣來源於它的問題。 例如,此代碼給出錯誤:對象未對齊。 #naive numpy solution, can be parallel? def test_brutefor