我正在嘗試從s3獲取.seq文件。當我嘗試使用如何在Spark中讀取s3中的.seq文件
sc.textFile("s3n://logs/box316_0.seq").take(5).foreach(println)
輸出到讀它 -
SEQorg.apache.hadoop.io.Text"org.apache.hadoop.io.BytesWritable'org.apache.hadoop.io.compress.GzipCodecp
,然後一串編碼的字符。這是什麼格式,我應該如何解碼這個文件?我第一次用Hadoop所以請慷慨:)
更新:我試過
sc.sequenceFile[Text,BytesWritable]("s3n://logs/box316_0.seq").take(5).foreach(println)
所以數據的Json BLOB存儲在序列文件,這讓我 -
Serialization stack: - object not serializable
(class: org.apache.hadoop.io.Text, value: 5) -
field (class: scala.Tuple2, name: _1, type: class java.lang.Object)
- object (class scala.Tuple2, (5,7g 22 73 69 6d 65 43 74 71 9d 90 92 3a .................. – user1579557 5 mins ago
你讓我的一天。 – user1579557