0
我是Spark的新手,並試圖儘可能多地讀取&研究。目前我被困在這個上,我花了幾天的時間來解決。我已經在3臺機器(1臺主機,2臺從機)上成功建立了Spark Clusters,並運行了一些示例。現在我正在嘗試編寫一個Python應用程序,它將讀取csv文件,然後將每行分成一個JSON文件並將其全部上傳到S3。這裏是我的問題:將Spark數據框分割爲每一行並將其轉換爲JSON - Python
我已經轉換的CSV星火據幀,使用
SparkSession.read.csv()
,我怎麼分割這個數據框爲多行並轉換爲JSON?我已經讀過Spark DataFrame具有toJSON函數,但適用於整個DataFrame,那麼如何在DataFrame的每一行而不是整個DataFrame上使用thi函數?如何在我的應用程序中應用分佈式系統,給出我有2個從站和一個主站?或者,我的應用程序是否會自動將工作分成更小的部分並分配給從服務器?
如何將轉換後的JSON轉換爲S3,一些示例代碼指導將對我有所幫助。
我會非常感謝,如果你能幫助我,謝謝你的幫助提前。
所有的觀點都是正確的,並幫助我找到答案很多。謝謝。 – Leo