3
默認情況下,較新版本的Spark在保存文本文件時使用壓縮。例如:Spark:saveAsTextFile不壓縮
val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("/path/to/output")
將以.deflate
格式創建文件。改變壓縮算法是很容易的,例如爲.gzip
:
import org.apache.hadoop.io.compress._
val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("/path/to/output", classOf[GzipCodec])
但是,有沒有辦法保存RDD作爲一個純文本文件,即沒有經過任何壓縮?
嘗試將'mapred.output.compress'設置爲'false' – mrsrinivas