2017-06-27 28 views

回答

0

ORC或Parquet查詢,用Snappy壓縮。 Avro是另一種通用格式,但對於SparkSQL查詢而言效率較低,因爲您必須掃描更多數據。

重要在寫這篇文章時(六月2017),你不能安全地使用S3火花RDD /數據框查詢(即save())調用的直接目標。有關說明,請參閱Cloud Integration。寫入HDFS然後複製