我有一個簡單的spark工作,它從s3中讀取一個文件,需要5個時間並在s3中寫回。 我看到的是,在s3中總是有附加文件,在我的輸出「目錄」旁邊,它被稱爲output_ $ folder $。S3上帶有美元符號的Junk Spark輸出文件
這是什麼?我如何防止火花產生? 下面是一些代碼來顯示我在做什麼...
x = spark.sparkContext.textFile("s3n://.../0000_part_00")
five = x.take(5)
five = spark.sparkContext.parallelize(five)
five.repartition(1).saveAsTextFile("s3n://prod.casumo.stu/dimensions/output/")
這份工作,我已經S3「目錄」稱爲輸出其中包含的結果和另一S3對象調用output_ $文件夾$,我不知道以後這是什麼。