我有數據這種類型的文件的每一行是除了前幾個字(見所附圖像)的JSON對象。我想用Spark和Scala解析這種類型的文件。我已經嘗試過使用sqlContext.read.json(「json文件的路徑」),但它給我錯誤(損壞的數據),因爲整個數據不是JSON對象。如何解析這個JSON文件到SQL數據框?
0
A
回答
1
試試這個:
val rawRdd = sc.textFile("path-to-the-file")
val jsonRdd = rawRdd.map(_.substring(32)) //32 - number of first characters to ignore
val df = spark.read.json(jsonRdd)
相關問題
- 1. 如何解析使用Scala火花
- 2. 閱讀JSON使用火花和Scala
- 3. Apache的火花數據幀
- 4. 火花Scala的理解reduceByKey(_ + _)
- 5. 解析層次JSON到數據幀中的火花
- 6. Apache的火花Scala的異常處理
- 7. 與複雜JSON火花
- 8. JSON數據解析與jQuery和HTML
- 9. 解析JSON數據與Python
- 10. Scala的火花的數據幀組通過與字段合併
- 11. 解析數據JSON和Python
- 12. C#和json數據解析
- 13. 將JSON數據解析爲Scala列表和HashMap
- 14. 多個Apache火花版本與cassandra
- 15. 迭代火花的Scala
- 16. Scala火花矩陣操作
- 17. scala 2.10.4到2.11的火花
- 18. 解析大JSON數據與JSON數組和字符串值
- 19. 解析和操縱Scala中的json
- 20. 用Scala升降解析JSON
- 21. 優化Scala JSON解析
- 22. JSON解析使用星火
- 23. json與內部陣列的火花數據集
- 24. Apache的火花和Python拉姆達
- 25. 解析json數據
- 26. JSON數據解析
- 27. 解析JSON數據
- 28. 解析JSON數據
- 29. 解析json數據
- 30. 解析JSON數據
如果已經無效JSON,你可以不使用任何工具 –
這是無效的JSON解析呢? –
那麼,事實上,你有實際的JSON之前的非JSON數據,那麼是的,它在Sparks眼中無效。您需要單獨提取數據 –