例如,我有一個DataFrame如下。如何在熊貓中進行復雜的數據清理
lineNum id name Cname score
1 001 Jack Math 99
2 002 Jack English 110
3 003 Jack Chinese 90
4 003 Jack Chinese 90
5 004 Tom Math Nan
6 005 Tom English 75
7 006 Tom Chinese 85
正如你所看到的,我想爲這些數據清理數據。 1)刪除第3行和第4行的重複值。 2)處理不合理的值。在第二行,傑克的英語得到110,超過了最大值100.我想將他的分數設置爲所有學生英語得分的平均值。 3)處理南的價值。湯姆的數學成績是南。我想改變爲所有學生數學成績的平均值。
我可以分別做各種要求。但我不知道如何完成這三項要求。謝謝!
你爲什麼不先執行每個需求1,如先刪除重複項,然後對所有null和out-of-bound值,用平均值 –
替換,您可以使用Dataframe.drop_duplicate(),然後去除110分很容易,因爲你知道max是100,然後使用'Dataframe.fillna()'作爲nan值 –