我有一個DataFrame,我從籃球參考玩家的名字。下面的代碼是我如何構建DataFrame。它有5列球員名字,但每個名字也有球員的位置。爲什麼來自pandas DataFrame的列在此循環中不起作用?
url = "http://www.basketball-reference.com/awards/all_league.html"
dframe_list = pd.io.html.read_html(url)
df = dframe_list[0]
df.drop(df.columns[[0,1,2]], inplace=True, axis=1)
column_names = ['name1', 'name2', 'name3', 'name4', 'name5']
df.columns = column_names
df = df[df.name1.notnull()]
我想分割位置。爲此我曾計劃爲每個名字列一個數據幀:
name1 = pd.DataFrame(df.name1.str.split().tolist()).ix[:,0:1]
name1[0] = name1[0] + " " + name1[1]
name1.drop(name1.columns[[1]], inplace=True, axis=1)
因爲我有五列,我想我會用一個循環
column_names = ['name1', 'name2', 'name3', 'name4', 'name5']
for column in column_names:
column = pd.DataFrame(df.column.str.split().tolist()).ix[:,0:1]
column[0] = column[0] + " " + column[1]
column.drop(column.columns[[1]], inplace=True, axis=1)
column.columns = column
做到這一點,那麼我會參加所有這些DataFrame返回到一起。
df_NBA = [name1, name2, name3, name4, name5]
df_NBA = pd.concat(df_NBA, axis=1)
我是新來的蟒蛇,所以我敢肯定,我在一個相當繁瑣的方式這樣做,他會喜歡的建議,我怎麼可能做得更快。但我的主要問題是,當我運行它正常工作單獨列的代碼,但如果當我運行的循環,我得到的錯誤:
AttributeError: 'DataFrame' object has no attribute 'column'
看來,循環df.column.str
的一部分會引起一些問題?我用列括號列(我還是不明白爲什麼有時候我會加入一個DataFrame列,有時它是列列號,但這是一個更大的問題)以及其他隨機事物。
當我嘗試@ BrenBarn的建議
df.apply(lambda c: c.str[:-2])
以下彈起在Jupyter筆記本:
SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
if __name__ == '__main__':
望着數據框,什麼都沒有真正改變,如果我沒有這樣明白的文檔方法通過編輯創建DataFrame的副本,但是這是一個臨時副本,後來被拋出,所以實際的DataFrame不會更改。
你是說如果你做'df [column]''也行不通? – BrenBarn
'df.column'對應於'df ['column']',而不是'df [column]'。所以當列是一個變量時,你不能像那樣使用它。 – ayhan
@BrenBarn,是的,如果我使用'df [column]'''df ['column']',它就不起作用,我猜這就是@ayhan所說的。那麼有答案嗎? – vino88