2017-04-14 56 views
1

在幾種情況下,如果句法(例如,拼寫 - PURPLE或PURPAL)錯誤,我如何使用Python從csv文件(50000行,下面的示例)分組顏色(藍色,綠色,紫色,紅色)?感謝您提供的任何幫助當語法(iePURPLE或PURPAL)錯誤時,如何從csv文件分組顏色(藍色,綠色,紫色,紅色)?

Blue  5642 
Purpal 5640 
red  5610 
BLUE  5583 
Red  5541 
green  5523 
Purple 5503 
Green  5491 
RED  5467 
...... 
+0

分組必須清理您的數據,即擺脫PURPAL或任何其他類似損壞之前。 – Afaq

回答

3

您將需要清理數據。顯然,這對於數據所處的任何情況都是唯一的,但是如果您嘗試識別拼寫錯誤的顏色名稱,那麼可以過濾DataFrame以顯示不是藍色,綠色,紫色或紅色的所有內容。

你可以做下面的事情來識別不適應,然後找出如何解決它們。

df.Color = df.Color.str.lower() 
colors = ['blue', 'red', 'purple', 'green'] 
misspellings = df.Color[~df.Color.isin(colors)].values 
print(misspellings) 
['purpal'] 

從那裏你可以單獨修復每個條目或寫點東西來智能修復它們。這取決於你,但一旦你完成了,你可以像平常一樣進行分組。要解決的「purpal」的一個或多個條目,你可以這樣做:

df.loc[df.Color == 'purpal', 'Color'] = 'purple' 
+0

很好的答案!加一。 Hi @Grr – piRSquared

+0

謝謝@Grr,非常感謝:) – Roebster

相關問題