使用Spark在EMR上使用Spark進行ETL的S3的最佳文件格式

我們計劃使用Spark來處理坐在S3上的源數據的ETL處理。 ETL處理的數據量不到1億。什麼是在這種情況下S3中存儲數據的最佳格式，即最佳壓縮和文件格式（文本，序列，拼花等）使用Spark在EMR上使用Spark進行ETL的S3的最佳文件格式

ORC或Parquet查詢，用Snappy壓縮。 Avro是另一種通用格式，但對於SparkSQL查詢而言效率較低，因爲您必須掃描更多數據。

重要在寫這篇文章時（六月2017），你不能安全地使用S3火花RDD /數據框查詢（即save()）調用的直接目標。有關說明，請參閱Cloud Integration。寫入HDFS然後複製

2017-06-29 19:33:46

回答