0
我已經使用以下格式的數據源高達150萬saveAsTextFile性能改進
1
2
3
4
5
..
1500000
我使用下面的代碼片段
JavaRDD<String> dataCollection=ctx.textFile("hdfs://yarncluster/Input/datasource");
JavaPairRDD<String,String> rdd=dataCollection.cartesian(dataCollection);
rdd.saveAsTextFile("hdfs://yarncluster/Ouput");
它需要更多的時間來保存在集羣中的數據。 有沒有其他方法可以提高性能?
您的結果數據集非常龐大。 – abalcerek
是的,是否有任何其他默認選項用於paraalyize saveAsTextFile操作 – Raja