csv是否使用pyspark分發的實木複合地板？

我有AWS EMR master node以下代碼片段將csv文件轉換爲實木複合地板文件。csv是否使用pyspark分發的實木複合地板？

%pyspark 


csv_path = "s3://<bucket>/file.csv" 
p_path = "s3://<bucket>/file.parquet" 

df = sqlContext.read.csv(csv_path, header=True, inferSchema=True) 
df.write.parquet(p_path, mode='overwrite')

如果我請求更多的節點，這個操作會更快嗎？換句話說，轉換爲分佈在火花簇中的鑲木地板。我現在還不知道，我不想在更多節點上燒錢，而不瞭解更多。

來源

2017-10-21 jwillis0720

是的，它是分佈式的。

操作會更快嗎？它取決於很多因素，但在最好的情況下，只要代碼等於您（單一作業）的代碼，就應該根據節點數量進行線性縮放。

禁用模式推斷並提供顯式模式的另一個改進。

來源

2017-10-21 08:19:37 user8810197

csv是否使用pyspark分發的實木複合地板？

回答

相關問題