我'使用pyspark每行的空值的數量過濾數據幀我有這樣的一個表:Pyspark:基於
id | ClientNum | Value | Date | Age | Country | Job
1 | 19 | A | 1483695000 | 21 | null | null
2 | 19 | A | 1483696500 | 21 | France | null
3 | 19 | A | 1483697800 | 21 | France | Engineer
4 | 19 | B | 1483699000 | 21 | null | null
5 | 19 | B | 1483699500 | 21 | France | null
6 | 19 | B | 1483699800 | 21 | France | Engineer
7 | 24 | C | 1483699200 | null | null | null
8 | 24 | D | 1483699560 | 28 | Spain | null
9 | 24 | D | 1483699840 | 28 | Spain | Student
基於列價值,我想保持每個ClientNum不同值指定了大多數信息(年齡,國家,工作)。
的結果應該是這樣的:
ClientNum | Value | Date | Age | Country | Job
19 | A | 1483697800 | 21 | France | Engineer
19 | B | 1483699800 | 21 | France | Engineer
24 | C | 1483699200 | null | null | null
24 | D | 1483699840 | 28 | Spain | Student
謝謝!
[試試這個答案】(http://stackoverflow.com/questions/38649793/how-to-get-distinct-rows-in-dataframe-using -pyspark)和[也看到這個](http://stackoverflow.com/questions/39287729/filter-rows-by-distinct-values-in-one-column-in-pyspark) – ARr0w
我不能做到這一點與df.distinct()或df.drop_duplicates(),所有行是不同的在我的例子。我只想保留不同的值。 – Omar14
這就是這些答案的內容。讓你知道你想要保持的獨特價值。 – ARr0w