0
我跑pyspark2過火花2.0.0火花2.0.0選擇不同的結果不穩定
考慮加載到數據幀穩定常數的數據集,我也被某些列拖放重複:
vw_ticket = read_csv(...)
vw_ticket_in_booking = vw_ticket.dropDuplicates(['BOOKING_TICKET_ID'])
vw_ticket_in_booking.createOrReplaceTempView('vw_ticket_in_booking')
而且然後
spark.sql('select count(distinct(booking_id)) from vw_ticket_in_booking t').show()
給出了空前絕後的結果,不同號碼,但
3210總是穩定的。可能是什麼原因?