0
我有AWS EMR master node以下代碼片段將csv文件轉換爲實木複合地板文件。csv是否使用pyspark分發的實木複合地板?
%pyspark
csv_path = "s3://<bucket>/file.csv"
p_path = "s3://<bucket>/file.parquet"
df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)
df.write.parquet(p_path, mode='overwrite')
如果我請求更多的節點,這個操作會更快嗎?換句話說,轉換爲分佈在火花簇中的鑲木地板。我現在還不知道,我不想在更多節點上燒錢,而不瞭解更多。