我知道hdfs會將文件拆分成類似64mb的塊。我們有流媒體數據,我們可以將它們存儲到大文件或中等大小的文件中。柱狀文件存儲的最佳大小是多少?如果我可以將文件存儲到最小列爲64mb的位置,是否可以節省計算時間,比如說1GB文件?有一個大的鑲木地板文件或大量較小的鑲木地板文件是更好嗎?
3
A
回答
6
針對每個文件大約1GB(火花分區)(1)。
理想情況下,由於活動的壓縮木條文件是可拆分的(2),因此您會使用活潑的壓縮(默認)。
使用snappy而不是gzip會顯着增加文件大小,所以如果存儲空間是一個問題,那就需要考慮。
.option("compression", "gzip")
是覆蓋默認快速壓縮的選項。
如果您需要調整/重新分區您的數據集/數據幀/ RDD,請調用.coalesce(<num_partitions>
或最壞情況.repartition(<num_partitions>)
函數。警告:特別是重新分配,但也可能會導致數據重新洗牌,因此請謹慎使用。
此外,實木複合地板文件的大小,對於這個問題,所有文件的大小通常應該大於HDFS塊大小(默認128MB)。
1)https://forums.databricks.com/questions/101/what-is-an-optimal-size-for-file-partitions-using.html 2)http://boristyukin.com/is-snappy-compressed-parquet-file-splittable/
相關問題
- 1. 不同大小的火花相同的鑲木地板文件
- 2. 找出原始鑲木地板文件大小?
- 3. 設置鑲木地板活潑的輸出文件大小是否配置?
- 4. 如何在鑲木地板文件中創建日期類型列與鑲木地板
- 5. 是否可以直接從文件加載鑲木地板表?
- 6. Parquetloader:無法使用豬加載多個鑲木地板文件
- 7. 生成鑲木地板文件 - R和Python之間的差異
- 8. 的鑲木子文件
- 9. 從鑲木地板文件創建Hive表並加載數據
- 10. 在java中創建鑲木地板文件
- 11. 如何查詢製作壓縮鑲木地板文件?
- 12. 如何在鑲木地板文件中創建嵌套的對象和數組?
- 13. 無法覆蓋pyspark中的鑲木地板配置單元表
- 14. 如何實現鑲木地板格局的變化
- 15. 如何在使用pyspark閱讀鑲木地板文件時指定模式?
- 16. 火花鑲木地板轉換問題與文件格式不正確行
- 17. 實木複合地板分區和HDFS文件大小
- 18. 無法從命令行獲得鑲木地板工具
- 19. Avro內存與鑲木地板作爲存儲
- 20. Spark SQL:鑲嵌類實木複合地板錯誤
- 21. 如何解決Hive文本文件格式與鑲木地板文件格式之間的日期差異
- 22. 更新取決於它自己的數據的鑲木地板文件的最佳方式
- 23. 如何在Azure HDInsight上的Spark中設置鑲木塊大小?
- 24. 分裂一個大木文件分成多個文件,實木複合地板用鑰匙
- 25. Impala +實木複合地板文件
- 26. 鑲木:元數據和common_metadata
- 27. 如何使用Spark Map Reduce將一堆鑲木地板文件結合在一起?
- 28. 從鑲木地板表中選擇返回蜂巢中的任何內容
- 29. 轉換鑲木FIXED_LEN_BYTE_ARRAY到本地Java地圖上DECIMAL減少
- 30. 指定最大木地板塊大小PySpark
我們使用聚結與蜂巢上下文功能50個執行人我們文件的其中之一是15GB〜並且它運行就像一個魅力。 – Explorer