hdfstore

0熱度

2回答

我有一個熊貓數據框對象，我預先分配了400 000個條目。 2列是類型爲datetime.datetime的時間戳和浮點數。當我嘗試在表中插入（覆蓋）一行時，它看起來相當慢，這取決於表的大小，我得到類似0.044秒的東西。我已經創建了一個整數索引，我正在使用這個索引來訪問該行。這裏是我如何使用它： maxsize = 400000 data = pd.DataFrame({'ts' : d

0熱度

1回答

HDFStore：選擇是否列在陣列

我有一個表（其中包括）下列： >>> hdf.select('foo').columns Out[22]: Index(['bar', 'units'], dtype='object') 現在我想選擇那些bar有兩個值之一： myBar = ['1500013010', '1500002071'] hdf.select('foo', 'bar in [{}]'.format(

1熱度

1回答

通過使用HDFStore比較列來選擇行

如何通過使用Pandas比較hdf5文件中的兩列來選擇某些行？ hdf5文件太大而無法加載到內存中。例如，我想選擇列A和列B相等的行。數據框保存在文件'mydata.hdf5'中。謝謝。 import pandas as pd store = pd.HDFstore('mydata.hdf5') df = store.select('mydf',where='A=B') 這是行不通的。我知

3熱度

1回答

在pandas中查看hdf5文件中的行數

我想知道是否有一種方便快捷的方式，並且無需加載整個文件，使用pandas獲取使用pandas創建的hdf5文件中的行數？預先感謝您！

4熱度

1回答

如何在追加失敗時有效地重建熊貓hdfstore表格

我正在使用大熊貓hdfstore處理來自正在進行的迭代過程的數據幀。在每次迭代中，我追加到hdfstore中的表格。這裏是一個玩具例子：對hdfstore.append拋出各種異常 import pandas as pd from pandas import HDFStore import numpy as np from random import choice from string

2熱度

1回答

大熊貓HDFStore：保存和檢索具有分層週期索引的系列

我首先創建一個具有二維分層索引的系列。他們索引類型（pandas.period，numpy.int32） In [265]: import pandas as pd In [266]: import numpy as np In [267]: hdf_file = r'F:\test.h5' In [268]: data = np.random.randint(10, size=(7,

1熱度

1回答

使用分塊數據，同時需要groupby操作

我有一個數據集df，有三列：'String_key_val','Float_other_val1','Int_other_val2'。我想在key_val上groupby，然後提取關於這些組的val1（或val2）的總和。這裏是我的代碼： df = pandas.read_csv('test.csv') grouped = df.groupby('String_key_val') series

1熱度

1回答

Apache Hadoop：將壓縮數據插入HDFS

我需要將100個文本文件上傳到HDFS，以便使用Apache Pig進行一些數據轉換。在你看來，什麼是最好的選擇：一）壓縮所有文本文件，只上傳一個文件， b）加載所有的文本文件分別？

1熱度

1回答

熊貓HDFStore從嵌套列

選擇我有以下的數據幀，存儲在一個HDFStore對象作爲frame_table稱爲數據： shipmentid qty catid 1 2 3 4 5 0 0 0 0 0 0 0 1 1 0 0 0 2 0 2 2 2 0 0 0 0 3 3 0 4 0 0 0 0 0 0 0 0 0 0 我想做store.select('data','

1熱度

2回答

大熊貓HDFStore：慢查詢不匹配的字符串

我的問題是，當我試圖尋找一個字符串不包含在DataFrame（它存儲在hdf5文件中）時，它需要很長時間完成查詢。例如：我有一個包含2 * 10^9行的df。它存儲在HDF5文件中。我有一個名爲「code」的字符串列，它被標記爲「data_column」（因此它被索引）。當我搜索數據集中存在的代碼（store.select（'df'，'code = valid_code'））時，大約需要10秒