3
我想在yarn-cluster模式下執行我的Spark作業。這是工作的罰款與獨立和紗線客戶機模式,但在集羣模式下,在pairs.saveAsTextFile(output);
在簇羣模式下的Apache Spark正在拋出Hadoop FileAlreadyExistsException
這裏扔FileAlreadyExistsException
是我的執行工作:
SparkConf sparkConf = new SparkConf().setAppName("LIM Spark PolygonFilter").setMaster(master);
JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);
Broadcast<IGeometry> boundryBroadCaster = broadcastBoundry(javaSparkContext, boundaryPath);
JavaRDD<String> file = javaSparkContext.textFile(input);//.cache();
JavaRDD<String> pairs = file.filter(new FilterFunction(params , boundryBroadCaster));
pairs.saveAsTextFile(output);
按照日誌,它爲一個節點,之後,它開始爲其餘所有節點拋出此異常。
有人可以幫我解決它嗎?謝謝。
禁用輸出規範後,它正在工作:('spark.hadoop.validateOutputSpecs = true')。修復FileAlreadyExistsException後,作業在通道關閉時失敗,並且通過參數「fs.hdfs.impl.disable.cache = true」修復。 我發現了很多這些例外的已打開的錯誤。我從這些錯誤中發現了這些解決方法。我不知道這是正確的行爲,還是我錯過了什麼? – Ajeet