我寫了下面的代碼預處理的數據集是這樣的:優化Python代碼
StartLocation StartTime EndTime
school Mon Jul 25 19:04:30 GMT+01:00 2016 Mon Jul 25 19:04:33 GMT+01:00 2016
... ... ...
它包含與起始和結束時間的用戶參加了位置的列表。每個位置可能會發生多次,並且沒有全面的位置列表。由此,我想彙總每個位置的數據(頻率,總時間,平均時間)。爲此,我編寫了以下代碼:
def toEpoch(x):
try:
x = datetime.strptime(re.sub(r":(?=[^:]+$)", "", x), '%a %b %d %H:%M:%S %Z%z %Y').strftime('%s')
except:
x = datetime.strptime(x, '%a %b %d %H:%M:%S %Z %Y').strftime('%s')
x = (int(x)/60)
return x
#Preprocess data
df = pd.read_csv('...')
for index, row in df.iterrows():
df['StartTime'][index] = toEpoch(df['StartTime'][index])
df['EndTime'][index] = toEpoch(df['EndTime'][index])
df['TimeTaken'][index] = int(df['EndTime'][index]) - int(df['StartTime'][index])
total = df.groupby(df['StartLocation'].str.lower()).sum()
av = df.groupby(df['StartLocation'].str.lower()).mean()
count = df.groupby(df['StartLocation'].str.lower()).count()
output = pd.DataFrame({"location": total.index, 'total': total['TimeTaken'], 'mean': av['TimeTaken'], 'count': count['TimeTaken']})
print(output)
此代碼功能正常,但效率相當低。我如何優化代碼?
編輯:基於@Batman's有用的意見我不再迭代。但是,如果可能的話,我仍然希望進一步優化。更新的代碼是:
df = pd.read_csv('...')
df['StartTime'] = df['StartTime'].apply(toEpoch)
df['EndTime'] = df['EndTime'].apply(toEpoch)
df['TimeTaken'] = df['EndTime'] - df['StartTime']
total = df.groupby(df['StartLocation'].str.lower()).sum()
av = df.groupby(df['StartLocation'].str.lower()).mean()
count = df.groupby(df['StartLocation'].str.lower()).count()
output = pd.DataFrame({"location": total.index, 'total': total['TimeTaken'], 'mean': av['TimeTaken'], 'count': count['TimeTaken']})
print(output)
你應該只組一次,然後得到'sum','mean'和'count' – furas
你真的需要'.str.lower()'嗎?你真的需要正則表達式嗎? – furas
@furas手動輸入位置,這是必要的,正則表達式用於處理使用的異常時間戳。 (請參閱[this](https://stackoverflow.com/questions/41782874/valueerror-parsing-time-string)) – user7347576