-1
我有一個嵌套的json rdd流來自kafka主題。 的數據是這樣的:如何在火花中操縱我的數據框?
{
"time":"sometext1","host":"somehost1","event":
{"category":"sometext2","computerName":"somecomputer1"}
}
我把這個變成一個數據幀和架構看起來像
root
|-- event: struct (nullable = true)
| |-- category: string (nullable = true)
| |-- computerName: string (nullable = true)
|-- time: string (nullable = true)
|-- host: string (nullable = true)
我試着將它與這樣
的模式保存到一個蜂巢表上HDFScategory:string
computerName:string
time:string
host:string
這是我第一次使用spark和scala。我會appretiate是否有人可以幫助我。 感謝