0
我想使用apache spark更新apache實木複合地板數據。我每天都有新的記錄,我必須做的是讀取spark中的當前記錄,然後對新記錄和舊記錄進行一些聚合,然後我在parquet文件系統中更新這些記錄。使用Apache Spark在Parquet文件系統中更新記錄查詢
我想使用apache spark更新apache實木複合地板數據。我每天都有新的記錄,我必須做的是讀取spark中的當前記錄,然後對新記錄和舊記錄進行一些聚合,然後我在parquet文件系統中更新這些記錄。使用Apache Spark在Parquet文件系統中更新記錄查詢
首先將初始記錄存儲到如下所示的配置單元表中。
sparkSession.read.parquet( 「parquetFilePath」)write.saveAsTable( 「someHiveTable」)
創建新記錄數據幀
VAL newData:數據集[行] = //與新記錄
使用數據幀中的任意下面的方法來追加記錄
一)newData.insert入( 「someHiveTable」)
B)newData.write.option( 「模式」, 「附加」)。saveAsTable( 「someHiveTable」)。
它會更新或附加我目前的parquet文件嗎?或者像我們在cassandra中所做的那樣,當我們追加它時會匹配主鍵並覆蓋那些已經存在的記錄。 – Arslan