使用Python清理文本數據

我正在學習Python的例子。也許我必須學習數據結構以完全內化函數，但是我希望有人能夠在這個階段幫助我。使用Python清理文本數據

現在，我正在清理由熊貓數據幀堆疊的文本數據。

我得到了以下結果，我想要做的只是爲每個拆分文本取最後兩個元素。

[['Australian Centre for Ancient DNA', 
    ' School of Biological Sciences', 
    ' University of Adelaide', 
    ' Adelaide', 
    ' South Australia 5005', 
    ' Australia'], 
['Department of Ecology and Evolutionary Biology', 
    ' Ramaley Biology', 
    ' University of Colorado', 
    ' Boulder', 
    ' CO 80309', 
    ' USA']]

所以，我的審判是像

df["zip"] = df["Af_split_split"] 
i = 0 
j = 0 
df.iloc[i,7][j] = df.iloc[i,6][j][len(df.iloc[i,6][j])-2:len(df.iloc[i,6][j])-1]

然而，當我試了一下，在數據幀的另一列元素也發生了變化。（請參閱第一行的Af_split，Af_split_split，zip具有相同的值）

我該如何處理這個問題？

來源

2017-03-02 user7626826

如果我正確理解你的問題，從你描述症狀，您的問題是一個典型的一個：你需要複製一個列表，並修改副本，而不修改原始。這已經回答了有關堆棧溢出已經見這裏：How to clone or copy a list?

爲了您的具體的例子，解決的辦法是修改你行，你分配的df，[「拉鍊」]這樣的：

df["zip"] = df["Af_split_split"][:]

那沒有數字的切片運算符將創建列表的新副本（而不是創建指針），以便對副本進行修改不會影響原始數據。

來源

2017-03-02 23:10:51 JawguyChooser

使用Python清理文本數據

回答

相關問題