我有兩個數據幀讓我們說A和B.它們有不同的模式。有效地加入並且沒有將數據幀的數據與其他數據幀相結合
我想從數據框A中獲取記錄,該數據框A與鍵B上的連接以及未加入的記錄相同,我也想要這些記錄。
這可以在一個查詢中完成嗎? 由於兩次檢查相同的數據會降低性能。 DataFrame A的尺寸比B大得多。 Dataframe B的尺寸大約爲50Gb-100gb。 因此,我不能在這種情況下廣播B.
我可以得到一個Dataframe C作爲結果,它可以有一個分區列「加入」值爲「是」或「否」,表示A中的數據是否加入或不加入B.
如果A有重複的情況會怎樣?我不想要他們。 我在想,我會稍後在C數據框上做一個recudeByKey。有關於此的任何建議?
我正在使用配置單元表在HDFS上以ORC文件格式存儲數據。 以scala編寫代碼。
我想僅從上的一個鍵,並記錄與B加入組播數據幀A記錄刪除列沒有加入,我也想要這些(這些是Dataframe A本身的記錄)。 我只想要來自A而不是B的行。我想從A加入B的行,以及那些沒有加入B的行,如果他們確實匹配或不與B一起標記。 – grv