2017-02-09 47 views
0

我只是使用火花來讀取鑲木地板文件,並做一個repartition(1)洗牌;然後保存到實木複合地板文件。有線的事情是新文件比原文件大得多。甚至元數據文件也比原始數據文件大數百kb。有沒有人注意到這個問題?在一種壓縮策略(例如:.gz格式)下,是否有辦法使拼圖文件儘可能小?不同大小的火花相同的鑲木地板文件

編輯: 我讀了其他帖子,並得到這個問題的基本思路。我仍然希望討論我們應該選擇哪種類型的列來進行分類工作。我希望找到一般優化策略來完成這項工作。

+2

可能重複[爲什麼Spark Parquet文件的聚合大於原始?](http://stackoverflow.com/questions/38153935/why-are-spark-parquet-files-for-an-aggregate-較大比最原始) – eliasah

回答

0

我想說,我同意我的帖子中的鏈接文章的想法。在我的情況下,排序將是一個不錯的選擇。具體而言,我使用不同的色譜柱進行了測試,也使用了單色和複合色譜柱。通常,對包含文件大部分信息的列進行排序是一種有效的策略。歡迎任何評論。

相關問題