0
我只是使用火花來讀取鑲木地板文件,並做一個repartition(1)
洗牌;然後保存到實木複合地板文件。有線的事情是新文件比原文件大得多。甚至元數據文件也比原始數據文件大數百kb。有沒有人注意到這個問題?在一種壓縮策略(例如:.gz格式)下,是否有辦法使拼圖文件儘可能小?不同大小的火花相同的鑲木地板文件
編輯: 我讀了其他帖子,並得到這個問題的基本思路。我仍然希望討論我們應該選擇哪種類型的列來進行分類工作。我希望找到一般優化策略來完成這項工作。
可能重複[爲什麼Spark Parquet文件的聚合大於原始?](http://stackoverflow.com/questions/38153935/why-are-spark-parquet-files-for-an-aggregate-較大比最原始) – eliasah