Spark DataFrames的重複刪除方法不起作用,我認爲這是因爲作爲我數據集一部分的索引列被視爲一列數據。那裏肯定有重複,我通過比較除索引外的所有列上的COUNT()
和COUNT(DISTINCT())
來檢查它。我是Spark DataFrame的新手,但如果我使用Pandas,那麼在這一點上,我會在該列上執行pandas.DataFrame.set_index
。Spark DataFrame相當於pandas.DataFrame.set_index/drop_duplicates與dropDuplicates
有誰知道如何處理這種情況?其次,Spark DataFrame上似乎有兩種方法,drop_duplicates
和dropDuplicates
。他們是一樣的嗎?
分享一些你的代碼,這將有助於我們理解這個問題更好。 – Munesh