hdfstore

    1熱度

    1回答

    可以說有人給我一個隨機的HDF5文件。我想編寫一個函數來檢查使用的組/「鍵」是什麼。 以熊貓HDFStore()。對於許多檢索HDF5數據的方法,需要知道密鑰,例如, pandas.HDFStore.get() http://pandas.pydata.org/pandas-docs/stable/generated/pandas.HDFStore.get.html 什麼是檢查密鑰的身份,如果不是

    1熱度

    2回答

    將存儲在HDFS中的數據加載到HIVE中時,HDFS中的這些數據是否會被複制到HIVE所使用的不同格式中?還是它使用原始文件來存儲/選擇/插入/修改數據? 上下文: LOAD DATA INPATH'/home/user/sample.txt'OVERWRITE INTO TABLE employee; HIVE是否使用/home/user/sample.txt總是存儲/選擇/插入/修改數據,還是

    2熱度

    1回答

    我已經使用熊貓創建了一個大的(120GB; 10億行)HDF5文件。初始創建HDF文件後,我添加到文件像這樣: with pd.get_store(path_output) as hdf_output: for i in range(BIG_LOOP): df = ... hdf_output.append('all', df, data_columns=[])

    1熱度

    1回答

    我使用熊貓來創建一個大的索引HDF5表。我想重新命名錶格中12列中的2列。我寧願不重建/重新索引表。 可這不復制所有數據(140GB)做些什麼呢?我希望文件中只有幾個元數據可以用正確的命令輕鬆地換出。 這次來到了我,因爲我有幾個「非天然」一欄包含空格的名字,並沒有意識到這是一個問題,直到試圖運行的SELECT語句。

    2熱度

    1回答

    我正在嘗試導入~12萬條帶有8列的記錄到Python中。由於其巨大的尺寸,我的筆記本電腦內存不足以滿足此需求。現在我試圖將SQL數據導入HDF5文件格式。如果有人可以共享一段代碼來查詢SQL數據並將其以HDF5格式保存成塊,那將會非常有幫助。我打算使用任何其他易於使用的文件格式。 我打算做一些基本的探索性分析,稍後可能會使用熊貓創建一些決策樹/線性迴歸模型。 import pyodbc impo

    1熱度

    1回答

    給出一個包含有一個熊貓HDFStore之間差異DataFrame: import pandas as pd import numpy.random as rd df = pd.DataFrame(rd.randn(int(1000)).reshape(500, 2), columns=list('ab')) store = pd.HDFStore('store.h5') store.ap

    0熱度

    1回答

    我通過pandas.HDFStore()通過熊貓將大約800 GB的巨大數據幀存儲到HDF5中。 import pandas as pd store = pd.HDFStore('store.h5') df = pd.Dataframe() # imagine the data being munged into a dataframe store['df'] = df 我想查詢這與Im

    1熱度

    1回答

    我遵循這裏的安裝準則。 http://www.pytables.org/usersguide/installation.html 因此,無論何時我從PyTables/build/lib.linux-x86_64-2.7文件夾在iPython中運行此命令,它都可以正常工作。 In [1]: import pandas as pd In [2]: store = pd.HDFStore('store.

    4熱度

    1回答

    我在平面文件中使用Python Pandas/Pytables/H5py將平面文件轉換爲HDF5的幾個TB數據(在子集中)查詢和搜索。我打算用to_hdf之類的東西轉換數據的每個小節並將它們存儲在HDFStore中。 儘管存儲的數據將永遠不需要更改,但我可能需要稍後將數據附加到某個特定子部分,然後重新索引(用於查詢)整個部分。我的問題是這樣的:將數據追加到現有表(使用store.append),然

    5熱度

    1回答

    考慮以下hdfstore和dataframes df和df2 import pandas as pd store = pd.HDFStore('test.h5') midx = pd.MultiIndex.from_product([range(2), list('XYZ')], names=list('AB')) df = pd.DataFrame(dict(C=range(6)),