從excel文件讀取數據後使用python進行數據清理

enter image description here 從excel文件讀取數據後使用python進行數據清理

你可以在這張圖中看到。在原始數據中，只有一些記錄的末尾有數字。它們會給數據分析帶來很多不便。是否有任何方法或功能可以有效地處理這個問題，無論有多少條記錄有「數字」結尾。

另外，直接讀取這個excel文件到一個pd.Dataframe將是這樣的，我想擺脫這些數字（'2'，'3'，'4'...）有效。

China2

中國，香港特別行政區域3

中國，澳門特別行政區Region4

來源

2017-07-26 St. Chen

你嘗試加載它？數字保持不變？ –

我使用「df = pd.read_excel（'file name.xls'）」。加載它的意義是什麼？ –

爲什麼不直接刪除這些數字：

df.Country = df.Country.str.replace("\d+$", "")

來源

2017-07-26 15:37:28 Huang

我有很多像這樣的數據文件。有時會有數百個數字以'數字'結尾。謝謝！正則表達式很好。 –

我試過了，但是python總是炸燬。最常見的錯誤信息是'TypeError：（'expected string or bytes-like object'，'in index country'）'。我將詳細描述這一點。我有幾列excel文件。 firt –

我已經嘗試過了，但python總是炸燬。最常見的錯誤信息是'TypeError：（'expected string or bytes-like object'，'in index country'）'。我將詳細描述這一點。我有幾列excel文件。第一列是'國家'。在一些國家名稱的結尾處，有'數字'腳註標籤（'1'，'2'，......'100'，...）。當我使用'df = pd.read_excel（'data.xls'）時，國名（'China2'等）將是一個完整的字符串。所以我想擺脫這些數字腳註後，我可以使用合併，排序和其他方法來做數據分析。 –

從excel文件讀取數據後使用python進行數據清理

回答

相關問題