我是新來的火花。我有一些json
數據來作爲HttpResponse
。我需要將這些數據存儲在配置單元表中。每個HttpGet
請求都會返回一個json,它將成爲表中的單個行。因此,我不得不將單行寫入配置單元表目錄中的文件。遞歸添加行到數據框
但是我覺得有太多的小文件會降低速度和效率。那麼是否有一種方法可以遞歸地將新行添加到Dataframe
並一次性將其寫入到配置單元表目錄中。我覺得這也會減少我的spark代碼的運行時間。
實施例:
for(i <- 1 to 10){
newDF = hiveContext.read.json("path")
df = df.union(newDF)
}
df.write()
我明白dataframes是不可變的。有沒有辦法做到這一點?
任何幫助,將不勝感激。謝謝。
感謝您的回答。我正在努力實現這一點。爲了發佈我的get請求,我需要一個json數組的每個元素的參數(之前提取)。那麼,是否有更好的方法來實現for循環,以便我可以有一個隨着每次迭代而增加的變量(該變量用於訪問數組中每個元素的參數)? –
你只需要一個從0到任何增量的索引? –
我剛剛更新了答案,我認爲更好地反映了你正在嘗試做的事情。這假定您想要一次處理抓取的JSON數組(並寫入單個文件)。您也可以先拆分JSON數組,或者連接多個JSON數組,具體取決於您想要執行的操作。 –