我想根據列ID刪除重複的行。我怎樣才能得到有重複「ID」的丟棄的數據?這是我現在正在處理的代碼。根據列火花數據幀得到重複的行
val datatoBeInserted = data.select("id", "is_enabled", "code", "description", "gamme", "import_local", "marque", "type_marketing", "reference", "struct", "type_tarif", "family_id", "range_id", "article_type_id")
val cleanedData = datatoBeInserted.dropDuplicates("id")
使用上面的查詢,cleanData將給出沒有「id」重複的所有行。現在,我想知道哪些行因爲重複而被過濾掉。
你嘗試'dataToBeInserted.except(cleanedData)'? – philantrovert
@philantrovert請回答這個問題:) –
@RameshMaharjan我把它標記爲重複:) – philantrovert