hdfstore

    1熱度

    1回答

    存儲 我使用下面的代碼與python/pandas存儲在HDFStore有很多NaN值的大數據集後: with get_store(work_path+'/stores/store.h5') as store: for chunk in reader: for column in column_list: store.append('%s' % colum

    3熱度

    1回答

    我很開心學習Hadoop及其周圍的各種項目,目前有兩種不同的策略,我正在考慮構建一個系統來存儲大量的市場報價數據,我剛剛開始使用Hadoop/HDSF和HBase,但希望有人可以幫助我種植系統種子,以後我不會再使用這些技術來垃圾。下面概述了我的系統和需求以及一些查詢和數據使用用例,最後是我目前關於從我讀過的小文檔中找到最佳方法的想法。這是一個開放式問題,我很樂意喜歡任何有洞察力的答案,並接受最好的

    1熱度

    2回答

    我需要幫助解決Hadoop問題。 在我的Java系統中,我有一個創建n記錄的函數。顯然,每條記錄都是一行要寫入Hadoop中的文本文件。 的問題是: 我怎麼能保存所有的ñ記錄在同一個Hadoop的節點?換句話說,我希望記錄看起來像一個獨特的記錄,可以肯定的是,如果這些記錄中的一個(或其副本之一)在一個節點上,那麼當然其他n-1記錄也在同一個節點上。 例如,假設我的函數創建: record1: 5

    4熱度

    1回答

    我知道如何在大熊貓HDFStore.select中使用AND類型的查詢,但是我怎樣才能使用OR? 例如,我有以下代碼 import pandas as pd df1 = pd.DataFrame({'A': randn(100), 'B': randn(100), 'C': randn(100).cumsum()}, index=pd.bdate_

    1熱度

    1回答

    TypeError: Cannot serialize the column [date] because its data contents are [empty] object dtype. 你好!目前已經有兩個包含每個節點的大型HDFStore,兩個節點都不適合內存。節點不包含NaN值。現在我想用this合併這兩個節點。首先對一個小商店進行了測試,所有的數據都可以放在一個大塊裏面,而且工作正

    1熱度

    1回答

    是否有首選方法檢查pandas HDFStore中的PyTables節點是否是表格?這有效,但NoSuchNodeError似乎不是API的一部分,所以也許我不應該依賴它。 In [34]: from tables.table import NoSuchNodeError In [35]: def is_tabular(store, key): try: store.ge

    1熱度

    1回答

    我有一個數據框,其中user_id存儲爲HDFStore中的索引frame_table。在這個HDF文件中也是另一個用戶帶着動作的表格。我想抓住1%用戶採取的所有行動。其過程如下: #Get 1% of the user IDs df_id = store.select('df_user_id', columns = ['id']) 1pct_users = rnd.sample(df_id.

    2熱度

    1回答

    我正在試驗不同的熊貓友好型存儲方案的刻度數據。到目前爲止,最快(在讀寫方面)一直在使用HDFStore和blosc壓縮以及「固定」格式。 store = pd.HDFStore(path, complevel=9, complib='blosc') store.put(symbol, df) store.close() 我使用股票代碼進行索引,因爲這是我的常見訪問模式。但是,該方案每個符號

    2熱度

    1回答

    我一直在玩熊貓來獲取HTTP日誌到熊貓進行分析,因爲它是大量數據的好來源,並且可以讓我學習熊貓。 我一次獲得一行流的日誌,因此無法從CSV導入,需要將這些日誌「泵送」到Pandas DataFrame中,然後我會將其保存到HDFStore文件中。 我現在編寫的代碼確實從GZIP中讀取了,所以我可以讓這個過程繼續下去,但是一旦我完成了熊貓的工作,我會將它修改爲使用pubsub風格的協同例程進行事件驅

    0熱度

    1回答

    我將100個csv文件轉換爲數據框並將它們存儲在HDFStore中。 什麼是 一個利弊 - 存儲csv文件100個不同HDFStore文件? b - 將所有csv文件作爲單獨的項目存儲在單個HDFStore中? 除了性能問題,我問的問題是我有穩定性問題,我的HDFStore文件經常被損壞。所以,對我而言,單個HDFStore存在風險。但是,我想知道是否有單一商店的好處。