0
目前我們在pig中有一個實現,用於從記錄中生成序列文件,其中記錄的某些屬性被視爲序列文件的關鍵字,並且與該關鍵字相對應的所有記錄都存儲在一個序列文件中。當我們正在發生火花時,我想知道這怎麼能在火花中完成?我可以在Spark中創建序列文件嗎?
目前我們在pig中有一個實現,用於從記錄中生成序列文件,其中記錄的某些屬性被視爲序列文件的關鍵字,並且與該關鍵字相對應的所有記錄都存儲在一個序列文件中。當我們正在發生火花時,我想知道這怎麼能在火花中完成?我可以在Spark中創建序列文件嗎?
saveAsSequnceFile將數據保存爲序列文件。
val a=sc.parallelize(List(1,2,3,4,5)).map(x=>(x,x*10)).saveAsSequenceFile("/saw1")
$ hadoop fs -cat /sqes/part-00000
SEQ org.apache.hadoop.io.IntWritable org.apache.hadoop.io.IntWritableZ tTrh7��g�,��
2[[email protected] ~]$
閱讀sequencefile使用sc.sequenceFile
val sw=sc.sequenceFile("/saw1/part-00000", classOf[IntWritable],classOf[IntWritable]).collect