2017-03-21 104 views

回答

6

針對每個文件大約1GB(火花分區)(1)。

理想情況下,由於活動的壓縮木條文件是可拆分的(2),因此您會使用活潑的壓縮(默認)。

使用snappy而不是gzip會顯着增加文件大小,所以如果存儲空間是一個問題,那就需要考慮。

.option("compression", "gzip")是覆蓋默認快速壓縮的選項。

如果您需要調整/重新分區您的數據集/數據幀/ RDD,請調用.coalesce(<num_partitions>或最壞情況.repartition(<num_partitions>)函數。警告:特別是重新分配,但也可能會導致數據重新洗牌,因此請謹慎使用。

此外,實木複合地板文件的大小,對於這個問題,所有文件的大小通常應該大於HDFS塊大小(默認128MB)。

1)https://forums.databricks.com/questions/101/what-is-an-optimal-size-for-file-partitions-using.html 2)http://boristyukin.com/is-snappy-compressed-parquet-file-splittable/

+1

我們使用聚結與蜂巢上下文功能50個執行人我們文件的其中之一是15GB〜並且它運行就像一個魅力。 – Explorer

相關問題