2015-06-17 50 views
0

我已經使用以下格式的數據源高達150萬saveAsTextFile性能改進

1 
2 
3 
4 
5 
.. 
1500000 

我使用下面的代碼片段

JavaRDD<String> dataCollection=ctx.textFile("hdfs://yarncluster/Input/datasource"); 

JavaPairRDD<String,String> rdd=dataCollection.cartesian(dataCollection); 

rdd.saveAsTextFile("hdfs://yarncluster/Ouput"); 

它需要更多的時間來保存在集羣中的數據。 有沒有其他方法可以提高性能?

+0

您的結果數據集非常龐大。 – abalcerek

+0

是的,是否有任何其他默認選項用於paraalyize saveAsTextFile操作 – Raja

回答

1

您可以通過調用具有大量分區的重新分區來提高並行度。