0
我按照https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/dealing_with_bad_data.html的建議來清理一些json數據。使用SparkSession將Json行的數據集轉換爲Dataframe
但是,指南已過時,我想用sparkSession
加載數據集並解析json。
spark.read.text('file.json').as[String].map(x => parse_json(x))
所以我結束了一個Dataset[String]
代替RDD[String]
, 我怎麼在數據集中讀取JSON的線?
嘗試 spark.read.text( 'file.json')。圖(X => parse_json(X))。RDD – Pushkr
@Pushkr是,作品 – user113531