使用Apache Spark在Parquet文件系統中更新記錄查詢

我想使用apache spark更新apache實木複合地板數據。我每天都有新的記錄，我必須做的是讀取spark中的當前記錄，然後對新記錄和舊記錄進行一些聚合，然後我在parquet文件系統中更新這些記錄。使用Apache Spark在Parquet文件系統中更新記錄查詢

2016-11-22 Arslan

首先將初始記錄存儲到如下所示的配置單元表中。

sparkSession.read.parquet（「parquetFilePath」）write.saveAsTable（「someHiveTable」）

創建新記錄數據幀

VAL newData：數據集[行] = //與新記錄

使用數據幀中的任意下面的方法來追加記錄

一）newData.insert入（「someHiveTable」）

B）newData.write.option（「模式」，「附加」）。saveAsTable（「someHiveTable」）。

2016-11-22 12:05:59 SanthoshPrasad

它會更新或附加我目前的parquet文件嗎？或者像我們在cassandra中所做的那樣，當我們追加它時會匹配主鍵並覆蓋那些已經存在的記錄。 – Arslan

回答