我有多個文本文件要用JavaSparkContext讀取,並且每個文件可能略有不同,並且包含多行記錄,所以我想使用正則表達式分隔符來查找記錄。是否可以使用正則表達式來配置textinputformat分隔符?是否可以使用正則表達式作爲textSpringContext的textinputformat分隔符?
..
String regex = "^(?!(^a\\s|^b\\s))";
JavaSparkContext jsc = new JavaSparkContext(conf);
jsc.hadoopConfiguration().set("textinputformat.record.delimiter", regex);
..
這個答案是錯誤的,實際上它解析了「:::」匹配字符而不是正則表達式的原因,而新行僅僅是因爲「println」。 –