bcolz

    1熱度

    1回答

    我在用bcolz試驗一下,看它是否與我需要做的兼容。我有一個由大約1100萬行和大約120列組成的數據集。該數據當前以HDF5文件以PyTables「表」格式存儲。數據在HDF5文件中被分成幾個「組」(單獨的節點),每個包含不同的列。 我想要做的就是將所有這些數據轉換成磁盤上的bcolz ctable,而不是一次全部讀入內存。我能夠做這做那的第一組(basic是集團之一的名稱): bcolz.ct

    1熱度

    1回答

    所以我得到了我想要放入bcolz的這個大的tick數據文件(一天60GB未壓縮)。我計劃通過塊讀取這個文件塊並將它們追加到bcolz中。 據我所知,bcolz只支持追加列而不是行。但是,我會說,tick數據比列式更行。例如: 0 ACTX.IV 0 13.6316 2016-09-26 03:45:00.846 ARCA 66 1 ACWF.IV 0 23.9702 2016-09-

    0熱度

    1回答

    我想在本地保存紅移查詢的輸出。我一直在使用blaze/odo嘗試,但與嘗試寫作,並試圖流中的數據會引發其他錯誤之前加載所有的數據到內存的默認設置,描述了另一個問題:Streaming results with Blaze and SqlAlchemy 因爲這個問題沒有任何答案,我尋找替代方法來做到這一點。 什麼是簡單,可靠和合理有效的方式加載大於內存查詢結果到Redshift bcolz?

    0熱度

    1回答

    dask文檔指出:「BColz是一個磁盤上,分塊,壓縮的列存儲,這些屬性對dask.dataframe非常有吸引力,它可以在其上運行得非常好。一個特殊的from_bcolz函數「。 但是,我找不到一個例子如何保存 dask數據幀到bcolz。推薦的方法是什麼?

    1熱度

    1回答

    我有一個包含〜7M行和3列,2個數字和1〜20M不同字符串uuids的數據集。這些數據以3G作爲csv文件,Castra可以將其存儲在2G左右。 我想用這些數據測試bcolz。 我試圖 odo(dask.dataframe.from_castra('data.castra'), 'data.bcolz') 其中產生的數據的〜70G的磁盤 上排出的inode和崩潰之前。 將這樣的數據集合到bco