0
我們計劃使用Spark來處理坐在S3上的源數據的ETL處理。 ETL處理的數據量不到1億。什麼是在這種情況下S3中存儲數據的最佳格式,即最佳壓縮和文件格式(文本,序列,拼花等)使用Spark在EMR上使用Spark進行ETL的S3的最佳文件格式
我們計劃使用Spark來處理坐在S3上的源數據的ETL處理。 ETL處理的數據量不到1億。什麼是在這種情況下S3中存儲數據的最佳格式,即最佳壓縮和文件格式(文本,序列,拼花等)使用Spark在EMR上使用Spark進行ETL的S3的最佳文件格式
ORC或Parquet查詢,用Snappy壓縮。 Avro是另一種通用格式,但對於SparkSQL查詢而言效率較低,因爲您必須掃描更多數據。
重要在寫這篇文章時(六月2017),你不能安全地使用S3火花RDD /數據框查詢(即save()
)調用的直接目標。有關說明,請參閱Cloud Integration。寫入HDFS然後複製