pytables

1熱度

1回答

我有一個整數值的排序pytables表，其中可能包含重複項以及由開始和結束值（end exclusive）表示的區域。我想找到最接近區域開始的值的索引，以及最接近區域末尾的值的索引。由此產生的指數必須由該地區包圍。例如： region = (35, 56) table_data = [4, 6, 18, 18, 30, 37, 37, 49, 54, 56, 80, 84] result:

1熱度

1回答

通過選擇行

更新pytable再次，我需要的幫助從別人經歷了PyTables ... 我有一個PyTable（.h5文件），我有一個非常棘手的方式來更新它的行.. 。我解釋... 表看起來或多或少像這樣 Day attempt ok 1 1 1 1 2 0 1 3 1 2 1 1 2 2 1 2 3 1 3 1 1 3 2 1 3 3 0

1熱度

1回答

從pytables中的多個表中選擇數據

我該如何以最快的方式做到這一點？我有一個表格.h5文件。表格每個都有10萬（或更多）行。整個文件的大小約爲10GB，（文件沒有裝入內存）中的表「鏈接」，這意味着，他們都具有相同的列（ID），作爲列鏈接它們之間。現在，如果我打電話給我的表：table1，table2 table3 table4等...我正在尋找最快的方式執行表2中的快速搜索，whith從table1的ID數據。作爲一個例子

2熱度

1回答

熊貓重命名膨脹HDF文件大小

我對df.rename（）方法和一般的重命名有相當困惑的問題。無論我如何嘗試重命名現有數據框中的列，最終的HDF輸出尺寸都會增加一倍。與大多數僅限數字的框架不同，我的框架包含許多被視爲對象的unicode列。我試過以下情況，但似乎都顯着膨脹生成使用df.to_hdf（'some_file.h5'，'表'）生成的HDF文件。假設我有一個重新命名的字典叫rename_dict，看起來像： rena

1熱度

1回答

寫入HDFStore時，是否可以保留Pandas tseries DatetimeIndex的頻率？

我有一個熊貓數據幀中的索引（注意頻率：H） - <class 'pandas.tseries.index.DatetimeIndex'> [2011-01-01 00:00:00, ..., 2013-12-31 23:00:00] Length: 26304, Freq: H, Timezone: None 有多個列，但排第幾（和其他散落各處）都NA條目。如果我寫這篇文章的HDF文件這樣

1熱度

1回答

Python元類：我如何概括此輔助類？

我使用PyTables將Python數據存儲在HDF5文件中，它需要一個輔助類來創建一個表。這裏有一個例子： class PacketData(pt.IsDescription): data = pt.UInt8Col(shape=(128,)) # later code does this: self.tdata = self.hfile.createTable(self.g,

1熱度

1回答

pandas pytable：如何指定一個MultiIndex的元素的min_itemsize

我將一個pandas數據框存儲爲一個包含MultiIndex的pytable。 MultiIndex的第一個級別是與用戶ID對應的字符串。現在，大多數用戶ID都是13個字符，但其中一些是15個字符。當我追加一個包含long userID的記錄時，pytables會產生一個錯誤，因爲它需要一個13個字符的字段。 ValueError('Trying to store a string with le

2熱度

1回答

爲什麼Python元類禁止將參數傳遞給__init__方法？

這個問題與關於PyTables元類的this question有關。我試圖在子類的PyTables元類IsDescription，通過一個變量，以定義列的形狀： import tables class MyClass(tables.IsDescription): def __init__(self, param): var1 = tables.Float64Col(shap

4熱度

1回答

在pandas中重命名錶hdfstore

我正在使用大熊貓來加入使用HDFStore的幾個巨大的csv文件。我將所有其他表合併到基表中，base。現在我在HDFStore中爲每個合併的輸出創建一個新表格，我稱之爲temp。然後我刪除舊的基表。最後，我將temp複製到base，並在我需要加入的下一張表上再次啓動該過程。如果我可以簡單地將temp重命名爲base，這將會更加高效。這可能嗎？

0熱度

1回答

Pytables閱讀CARRAY很慢

我創建了一個分塊陣列由： import tables FILTERS = tables.Filters(complib='lzo', complevel=1) h5file = tables.openFile('file.h5', mode='w', filters=FILTERS) x = h5file.createCArray(h5file.root,'chunk_array',tabl