我正在嘗試使用spark來讀取由hive生成的序列文件。當我嘗試訪問該文件時,我正面臨org.apache.spark.SparkException:由於階段失敗而導致作業中止:任務不可序列化:java.io.NotSerializableException:使用spark創建序列文件讀取問題Java
我已經嘗試了此問題的解決方法,該類可序列化,但我仍然面臨這個問題。我在這裏寫代碼片段,請讓我知道我在這裏錯過了什麼。
是因爲BytesWritable數據類型或其他導致問題的原因。
JavaPairRDD<BytesWritable, Text> fileRDD = javaCtx.sequenceFile("hdfs://path_to_the_file", BytesWritable.class, Text.class);
List<String> result = fileRDD.map(new Function<Tuple2<BytesWritables,Text>,String>(){
public String call (Tuple2<BytesWritable,Text> row){
return row._2.toString()+"\n";
}).collect();
}
請張貼錯誤的堆棧跟蹤,這將是有益的,如果你能張貼整個代碼。 – code