hdfstore

1熱度

1回答

存儲我使用下面的代碼與python/pandas存儲在HDFStore有很多NaN值的大數據集後： with get_store(work_path+'/stores/store.h5') as store: for chunk in reader: for column in column_list: store.append('%s' % colum

3熱度

1回答

使用Hadoop存儲股票市場報價數據

我很開心學習Hadoop及其周圍的各種項目，目前有兩種不同的策略，我正在考慮構建一個系統來存儲大量的市場報價數據，我剛剛開始使用Hadoop/HDSF和HBase，但希望有人可以幫助我種植系統種子，以後我不會再使用這些技術來垃圾。下面概述了我的系統和需求以及一些查詢和數據使用用例，最後是我目前關於從我讀過的小文檔中找到最佳方法的想法。這是一個開放式問題，我很樂意喜歡任何有洞察力的答案，並接受最好的

1熱度

2回答

如何在單個Hadoop節點上寫入多個記錄

我需要幫助解決Hadoop問題。在我的Java系統中，我有一個創建n記錄的函數。顯然，每條記錄都是一行要寫入Hadoop中的文本文件。的問題是：我怎麼能保存所有的ñ記錄在同一個Hadoop的節點？換句話說，我希望記錄看起來像一個獨特的記錄，可以肯定的是，如果這些記錄中的一個（或其副本之一）在一個節點上，那麼當然其他n-1記錄也在同一個節點上。例如，假設我的函數創建： record1: 5

4熱度

1回答

在hdfstore中使用OR選擇熊貓

我知道如何在大熊貓HDFStore.select中使用AND類型的查詢，但是我怎樣才能使用OR？例如，我有以下代碼 import pandas as pd df1 = pd.DataFrame({'A': randn(100), 'B': randn(100), 'C': randn(100).cumsum()}, index=pd.bdate_

1熱度

1回答

與數百萬行合併磁盤表問題

TypeError: Cannot serialize the column [date] because its data contents are [empty] object dtype. 你好！目前已經有兩個包含每個節點的大型HDFStore，兩個節點都不適合內存。節點不包含NaN值。現在我想用this合併這兩個節點。首先對一個小商店進行了測試，所有的數據都可以放在一個大塊裏面，而且工作正

1熱度

1回答

檢查熊貓HDFStore中的PyTables節點是否爲表格

是否有首選方法檢查pandas HDFStore中的PyTables節點是否是表格？這有效，但NoSuchNodeError似乎不是API的一部分，所以也許我不應該依賴它。 In [34]: from tables.table import NoSuchNodeError In [35]: def is_tabular(store, key): try: store.ge

1熱度

1回答

通過使用where索引從索引HDFStore中選擇行

我有一個數據框，其中user_id存儲爲HDFStore中的索引frame_table。在這個HDF文件中也是另一個用戶帶着動作的表格。我想抓住1％用戶採取的所有行動。其過程如下： #Get 1% of the user IDs df_id = store.select('df_user_id', columns = ['id']) 1pct_users = rnd.sample(df_id.

2熱度

1回答

如何減少HDFStore的大小開銷？

我正在試驗不同的熊貓友好型存儲方案的刻度數據。到目前爲止，最快（在讀寫方面）一直在使用HDFStore和blosc壓縮以及「固定」格式。 store = pd.HDFStore(path, complevel=9, complib='blosc') store.put(symbol, df) store.close() 我使用股票代碼進行索引，因爲這是我的常見訪問模式。但是，該方案每個符號

2熱度

1回答

動態添加到熊貓數據框

我一直在玩熊貓來獲取HTTP日誌到熊貓進行分析，因爲它是大量數據的好來源，並且可以讓我學習熊貓。我一次獲得一行流的日誌，因此無法從CSV導入，需要將這些日誌「泵送」到Pandas DataFrame中，然後我會將其保存到HDFStore文件中。我現在編寫的代碼確實從GZIP中讀取了，所以我可以讓這個過程繼續下去，但是一旦我完成了熊貓的工作，我會將它修改爲使用pubsub風格的協同例程進行事件驅

0熱度

1回答

將多個文件或單個文件導入HDFStore

我將100個csv文件轉換爲數據框並將它們存儲在HDFStore中。什麼是一個利弊 - 存儲csv文件100個不同HDFStore文件？ b - 將所有csv文件作爲單獨的項目存儲在單個HDFStore中？除了性能問題，我問的問題是我有穩定性問題，我的HDFStore文件經常被損壞。所以，對我而言，單個HDFStore存在風險。但是，我想知道是否有單一商店的好處。