fastparquet

    3熱度

    1回答

    我們在Dask(Python)和Drill(使用Sergeant數據包的R)中生成parquet文件。我們已經注意到了一些問題: 的Dask(即fastparquet)的格式具有_metadata和_common_metadata文件而parquet文件中R \ Drill沒有這些文件,並有parquet.crc文件,而不是(可刪除)。這些parquet實現之間有什麼區別?

    1熱度

    1回答

    我有一個hive格式和快速壓縮的parquet文件。它適合內存,pandas.info提供以下數據。 在拼花文件每組的行數僅僅是100K >>> df.info() <class 'pandas.core.frame.DataFrame'> Index: 21547746 entries, YyO+tlZtAXYXoZhNr3Vg3+dfVQvrBVGO8j1mfqe4ZHc= to oE4y

    4熱度

    2回答

    我正在尋找使用python從s3中讀取多個分區目錄中的數據的方法。 data_folder/SERIAL_NUMBER = 1/cur_date = 20-12-2012/abcdsd0324324.snappy.parquet data_folder/SERIAL_NUMBER = 2/cur_date = 27-12-2012/asdsdfsd0324324.snappy.parquet py

    11熱度

    1回答

    我有一個由100,000+行組成的數據框,每行有100,000列,總計爲10,000,000,000浮點值。 我已經成功在csv(製表符分隔)文件中讀取他們以前和我他們成功讀取到50個核至強機250GB RAM,並嘗試寫出來作爲.parq目錄,例如: huge.csv中的花車被保存爲字符串,它是125GB。 import dask.dataframe as dd filename = 'huge

    2熱度

    2回答

    多個目錄中讀取多個拼花文件(同模式)需要使用DASK用相同的架構多拼花文件加載到一個單一的數據幀。當它們全都在同一個目錄中時,這種方式起作用,但當它們位於不同的目錄中時不起作用。 例如: import fastparquet pfile = fastparquet.ParquetFile(['data/data1.parq', 'data/data2.parq']) 作品就好了,但如果我複製