我有兩個表:排除和kaggleresults。我試圖尋找存在於excluded
記錄,但在kaggleresults
如何獲取表1中存在但不是表2中的記錄?
計數不存在:
scala> spark.sql("select * from excluded").count()
res136: Long = 4652
scala> spark.sql("select * from kaggleresults").count()
res137: Long = 4635
不同的是17
scala> res136-res137
res139: Long = 17
我試圖讓那些17條記錄。我在下面寫了查詢,但它返回38
。
scala> spark.sql("select * from excluded left join kaggleresults on kaggleresults.subject_id = excluded.subject_id where kaggleresults.subject_id is null").count()
res135: Long = 38
問題
查詢什麼,我需要寫讓那些17點的記錄?
請你能告訴我這些表之間的共同ID –
安東尼排除查詢看起來是正確的。你可以通過像你所做的那樣通過左連接,EXISTS或NOT IN來完成,但是所有的結果都應該產生相同的結果,你可能會得到38,因爲38條記錄不存在。你說的是17,但是可能發生的另一個變化是在kaggresults中的記錄不是排除在外的,你可能有21條記錄,這就意味着淨差值爲17 – Matt
@Anthony請檢查下面的查詢我認爲它將爲你工作 –