0

我有帶有半結構化數據的txt文件,我必須通過spark-cassandra將它寫入cassandra。但是,首先我只在scala中解析什麼。用字符串中的不同類型解析txt

我的代碼:

import java.io.File 
import scala.io.Source 

object parser extends App { 
    val path = "somepath" 
    val fileArray = (new java.io.File(path)).listFiles() 
    for (file <- fileArray) 
    for (line <- Source.fromFile(file).getLines()) 

所以,我怎麼能分析每個字符串,並獲得價值把它放在卡桑德拉?例如我有(int,text,timestamp,int,text,char,int,text)? 我必須拆分行分隔符(「」)?並把它們放在一個元組中?或他們每個人轉換爲可讀格式?

回答

0

你可能會做的是把它作爲帶分隔符(「」)的csv文件來處理?所以讓Spark爲你解析。

val spark = SparkSession.builder.config(conf).getOrCreate() 
val dataFrame = spark.read.option("inferSchema", "true").option("delimiter", " ").csv(csvfilePath)