enter image description here從excel文件讀取數據後使用python進行數據清理
你可以在這張圖中看到。在原始數據中,只有一些記錄的末尾有數字。它們會給數據分析帶來很多不便。是否有任何方法或功能可以有效地處理這個問題,無論有多少條記錄有「數字」結尾。
另外,直接讀取這個excel文件到一個pd.Dataframe將是這樣的,我想擺脫這些數字('2','3','4'...)有效。
China2
中國,香港特別行政區域3
中國,澳門特別行政區Region4
enter image description here從excel文件讀取數據後使用python進行數據清理
你可以在這張圖中看到。在原始數據中,只有一些記錄的末尾有數字。它們會給數據分析帶來很多不便。是否有任何方法或功能可以有效地處理這個問題,無論有多少條記錄有「數字」結尾。
另外,直接讀取這個excel文件到一個pd.Dataframe將是這樣的,我想擺脫這些數字('2','3','4'...)有效。
China2
中國,香港特別行政區域3
中國,澳門特別行政區Region4
爲什麼不直接刪除這些數字:
df.Country = df.Country.str.replace("\d+$", "")
我有很多像這樣的數據文件。有時會有數百個數字以'數字'結尾。謝謝!正則表達式很好。 –
我試過了,但是python總是炸燬。最常見的錯誤信息是'TypeError:('expected string or bytes-like object','in index country')'。我將詳細描述這一點。我有幾列excel文件。 firt –
我已經嘗試過了,但python總是炸燬。最常見的錯誤信息是'TypeError:('expected string or bytes-like object','in index country')'。我將詳細描述這一點。我有幾列excel文件。第一列是'國家'。在一些國家名稱的結尾處,有'數字'腳註標籤('1','2',......'100',...)。當我使用'df = pd.read_excel('data.xls')時,國名('China2'等)將是一個完整的字符串。所以我想擺脫這些數字腳註後,我可以使用合併,排序和其他方法來做數據分析。 –
你嘗試加載它?數字保持不變? –
我使用「df = pd.read_excel('file name.xls')」。加載它的意義是什麼? –