有一個大的鑲木地板文件或大量較小的鑲木地板文件是更好嗎？

我知道hdfs會將文件拆分成類似64mb的塊。我們有流媒體數據，我們可以將它們存儲到大文件或中等大小的文件中。柱狀文件存儲的最佳大小是多少？如果我可以將文件存儲到最小列爲64mb的位置，是否可以節省計算時間，比如說1GB文件？有一個大的鑲木地板文件或大量較小的鑲木地板文件是更好嗎？

針對每個文件大約1GB（火花分區）（1）。

理想情況下，由於活動的壓縮木條文件是可拆分的（2），因此您會使用活潑的壓縮（默認）。

使用snappy而不是gzip會顯着增加文件大小，所以如果存儲空間是一個問題，那就需要考慮。

.option("compression", "gzip")是覆蓋默認快速壓縮的選項。

如果您需要調整/重新分區您的數據集/數據幀/ RDD，請調用.coalesce(<num_partitions>或最壞情況.repartition(<num_partitions>)函數。警告：特別是重新分配，但也可能會導致數據重新洗牌，因此請謹慎使用。

此外，實木複合地板文件的大小，對於這個問題，所有文件的大小通常應該大於HDFS塊大小（默認128MB）。

2017-03-21 05:24:56 Garren

我們使用聚結與蜂巢上下文功能50個執行人我們文件的其中之一是15GB〜並且它運行就像一個魅力。 – Explorer

回答