2016-10-22 25 views
2

我試圖用大型文本文件(超過50 GB)使用Zeppelin(scala)分析(實際可視化)一些數據。 Web上的示例使用具有已知標題和每列數據類型的csv文件。在我的情況下,我有一個帶有分隔符的純數據行。我如何achive把我的數據到數據幀像下面的代碼?:使用Zeppelin和Spark處理大文本文件

case class Record() 

val myFile1 = myFile.map(x=>x.split(";")).map { 
    case Array(id, name) => Record(id.toInt, name) 
} 

myFile1.toDF() // DataFrame will have columns "id" and "name" 

附:我想與列 「1」, 「2」 數據框... THX

回答

1

您可以使用CSV:

spark.read.option("delimiter", ";").csv(inputPath)