2016-07-29 47 views
0

採樣輸入如何查找和使用火花斯卡拉

abc^Aabd^Aabe^Aabf^Aabh 
abc^A\n 
^Aasv^Asaf^Asaf^Asdf 

預計輸出

abc^Aabd^Aabe^Aabf^Aabh 
abc^Aasv^Asaf^Asaf^Asdf 

我想在外殼火花斯卡拉以上的記錄之間除去新行。輸入結構是5列(無標題),2行和ctrl A分隔。上面的輸入文件在第二條記錄的中間有一個「\ n」我想刪除中間的\ n,但不是在END END。我在spark斯卡拉的許多方面嘗試,但不幫助我。在這一個幫助表示讚賞

+0

你怎麼得到預期的輸出航空自衛隊的一部分? – jtitusj

+0

對不起,這是我的錯誤。現在我已經更新了示例輸入 – sbgowtham

回答

0

好吧,試試這個:

val arr = Array("abc^Aabd^Aabe^Aabf^Aabh", "abc^A\n^Aasv^Asaf^Asaf^Asdf") 
arr.map(r => r.replaceAll("\\^A\n")) 
+0

請注意,這假設了一個數組結構。你可能有另一個集合類型,但它應該類似地工作。 – jtitusj