2017-10-21 155 views
0

我有AWS EMR master node以下代碼片段將csv文件轉換爲實木複合地板文件。csv是否使用pyspark分發的實木複合地板?

%pyspark 


csv_path = "s3://<bucket>/file.csv" 
p_path = "s3://<bucket>/file.parquet" 

df = sqlContext.read.csv(csv_path, header=True, inferSchema=True) 
df.write.parquet(p_path, mode='overwrite') 

如果我請求更多的節點,這個操作會更快嗎?換句話說,轉換爲分佈在火花簇中的鑲木地板。我現在還不知道,我不想在更多節點上燒錢,而不瞭解更多。

回答

1

是的,它是分佈式的。

操作會更快嗎?它取決於很多因素,但在最好的情況下,只要代碼等於您(單一作業)的代碼,就應該根據節點數量進行線性縮放。

禁用模式推斷並提供顯式模式的另一個改進。

相關問題