saveAsTextFile性能改進

我已經使用以下格式的數據源高達150萬saveAsTextFile性能改進

我使用下面的代碼片段

JavaRDD<String> dataCollection=ctx.textFile("hdfs://yarncluster/Input/datasource"); 

JavaPairRDD<String,String> rdd=dataCollection.cartesian(dataCollection); 

rdd.saveAsTextFile("hdfs://yarncluster/Ouput");

它需要更多的時間來保存在集羣中的數據。有沒有其他方法可以提高性能？

來源

2015-06-17 Raja

您的結果數據集非常龐大。 – abalcerek

是的，是否有任何其他默認選項用於paraalyize saveAsTextFile操作 – Raja

您可以通過調用具有大量分區的重新分區來提高並行度。

來源

2015-06-18 00:44:23 Holden

saveAsTextFile性能改進

回答

相關問題