hdfstore

    0熱度

    2回答

    我有一個熊貓數據框對象,我預先分配了400 000個條目。 2列是類型爲datetime.datetime的時間戳和浮點數。 當我嘗試在表中插入(覆蓋)一行時,它看起來相當慢,這取決於表的大小,我得到類似0.044秒的東西。 我已經創建了一個整數索引,我正在使用這個索引來訪問該行。 這裏是我如何使用它: maxsize = 400000 data = pd.DataFrame({'ts' : d

    0熱度

    1回答

    我有一個表(其中包括)下列: >>> hdf.select('foo').columns Out[22]: Index(['bar', 'units'], dtype='object') 現在我想選擇那些bar有兩個值之一: myBar = ['1500013010', '1500002071'] hdf.select('foo', 'bar in [{}]'.format(

    1熱度

    1回答

    如何通過使用Pandas比較hdf5文件中的兩列來選擇某些行? hdf5文件太大而無法加載到內存中。例如,我想選擇列A和列B相等的行。數據框保存在文件'mydata.hdf5'中。謝謝。 import pandas as pd store = pd.HDFstore('mydata.hdf5') df = store.select('mydf',where='A=B') 這是行不通的。我知

    3熱度

    1回答

    我想知道是否有一種方便快捷的方式,並且無需加載整個文件,使用pandas獲取使用pandas創建的hdf5文件中的行數? 預先感謝您!

    4熱度

    1回答

    我正在使用大熊貓hdfstore處理來自正在進行的迭代過程的數據幀。在每次迭代中,我追加到hdfstore中的表格。這裏是一個玩具例子:對hdfstore.append拋出各種異常 import pandas as pd from pandas import HDFStore import numpy as np from random import choice from string

    2熱度

    1回答

    我首先創建一個具有二維分層索引的系列。他們索引類型(pandas.period,numpy.int32) In [265]: import pandas as pd In [266]: import numpy as np In [267]: hdf_file = r'F:\test.h5' In [268]: data = np.random.randint(10, size=(7,

    1熱度

    1回答

    我有一個數據集df,有三列:'String_key_val','Float_other_val1','Int_other_val2'。我想在key_val上groupby,然後提取關於這些組的val1(或val2)的總和。這裏是我的代碼: df = pandas.read_csv('test.csv') grouped = df.groupby('String_key_val') series

    1熱度

    1回答

    我需要將100個文本文件上傳到HDFS,以便使用Apache Pig進行一些數據轉換。 在你看來,什麼是最好的選擇: 一)壓縮所有文本文件,只上傳一個文件, b)加載所有的文本文件分別?

    1熱度

    1回答

    選擇我有以下的數據幀,存儲在一個HDFStore對象作爲frame_table稱爲數據: shipmentid qty catid 1 2 3 4 5 0 0 0 0 0 0 0 1 1 0 0 0 2 0 2 2 2 0 0 0 0 3 3 0 4 0 0 0 0 0 0 0 0 0 0 我想做store.select('data','

    1熱度

    2回答

    我的問題是,當我試圖尋找一個字符串不包含在DataFrame(它存儲在hdf5文件中)時,它需要很長時間完成查詢。例如: 我有一個包含2 * 10^9行的df。它存儲在HDF5文件中。我有一個名爲「code」的字符串列,它被標記爲「data_column」(因此它被索引)。 當我搜索數據集中存在的代碼(store.select('df','code = valid_code'))時,大約需要10秒