2016-09-06 98 views
1

我是新來的scala和火花,我試圖將一個Tab分解文件轉換爲CSV文件,以進一步將其轉換爲RDD。 其實我試圖使用sc.textFile將Tab分隔文件轉換爲RDD。它正在實施,但之後的結果如.first(),.take(n)不是很系統,即使在使用foreach(println)後也無法正確讀取。 我試圖使用Excel將文件轉換爲csv,但數據大小非常大,它並沒有在第一個地方加載。 是否有任何簡單的ay 將Tab分隔文件轉換爲CSV以便獲得上述問題的系統結果。轉換製表符分隔文件爲csv文件

+0

http://carminedimascio.com/2015/ 02/apache-spark-convert-csv-to-rdd /也許你可以提供你到目前爲止已經嘗試過的和你的csv樣本? – sascha10000

+0

看看這個答案:http://stackoverflow.com/a/33898041 – mfirry

回答

0

這裏是一個小教程:

比方說,你TSV的數據是: row11 \t row12 \t row13... \t row1n row21 \t row22 \t row23... \t row2n 閱讀本文件作爲字符串RDD:

val readFile = sc.textFile("FILEPAHT HERE")

解析它的內容通過使用標籤分隔符:

val parseRows = readFile.map(row => row.split("\t"))

轉換行陣列成分隔的字符串 「」

val outputCsvRdd = parseRows.map(row => row.mkString(","))

寫出這將是一個CSV文件:

相關問題