我希望將我的日誌數據的副本保存在S3上的Parquet on專用分析上。我主要通過Spark與Parquet一起工作,似乎只能通過SQLContext.parquetFile()
和SQLContext.saveAsParquetFile()
提供讀取和寫入整個表格的操作。遞增地將數據添加到S3中的Parquet表中
有沒有什麼辦法可以將數據添加到現有Parquet表 而不寫出它的全部副本 特別是當它存儲在S3中時?
我知道我可以爲更新創建單獨的表,並且在Spark中我可以在查詢時形成Spark中的對應DataFrames的聯合,但是我對此的可伸縮性抱有懷疑。
如果需要,我可以使用Spark以外的其他東西。
我這是有效的查詢爲一個單一的表? –
@DanielMahler,我認爲差異可能被忽略,只需要處理一個'_metadata'文件,它不需要時間,我認爲 –