使用Zeppelin和Spark處理大文本文件

我試圖用大型文本文件（超過50 GB）使用Zeppelin（scala）分析（實際可視化）一些數據。 Web上的示例使用具有已知標題和每列數據類型的csv文件。在我的情況下，我有一個帶有分隔符的純數據行。我如何achive把我的數據到數據幀像下面的代碼？：使用Zeppelin和Spark處理大文本文件

case class Record() 

val myFile1 = myFile.map(x=>x.split(";")).map { 
    case Array(id, name) => Record(id.toInt, name) 
} 

myFile1.toDF() // DataFrame will have columns "id" and "name"

附：我想與列「1」，「2」數據框... THX

來源

2016-10-22 zelenov aleksey

您可以使用CSV：

spark.read.option("delimiter", ";").csv(inputPath)

來源

2016-10-22 19:21:34

使用Zeppelin和Spark處理大文本文件

回答

相關問題