2
我有一個源數據是這樣的:如何設置陣列的類型與在火花階數據集
{A:123,B:"Hello world",C:[{D:123,E:"Spark"}]}
,我有一個對象:
case class TestClass (A:Int;B:String;C:???)
val obj:Dataset[TestClass] = df.as[TestClass]
我應該如何定義的類型C?
我有一個源數據是這樣的:如何設置陣列的類型與在火花階數據集
{A:123,B:"Hello world",C:[{D:123,E:"Spark"}]}
,我有一個對象:
case class TestClass (A:Int;B:String;C:???)
val obj:Dataset[TestClass] = df.as[TestClass]
我應該如何定義的類型C?
一種選擇
case class Nested(D: Long, E: String)
case class TestClass (A: Long, B:String, C: Seq[Nested])
用法:
spark.read.json(sc.parallelize(
Seq("""{"A": 123, "B": "Hello world", "C": [{"D": 123, "E": "Spark"}]}"""
))).as[TestClass].show
+---+-----------+-------------+
| A| B| C|
+---+-----------+-------------+
|123|Hello world|[[123,Spark]]|
+---+-----------+-------------+
謝謝您的回答,這是運作良好。 –