我有一個Excel文件(.xlsx)約800行,128列與網格中密集的數據。有大約9500細胞,我試圖取代使用大熊貓數據幀的單元值:熊貓緩慢的數據幀替換
xlsx = pandas.ExcelFile(filename)
frame = xlsx.parse(xlsx.sheet_names[0])
media_frame = frame[media_headers] # just get the cols that need replacing
from_filenames = get_from_filenames() # returns ~9500 filenames to replace in DF
to_filenames = get_to_filenames()
media_frame = media_frame.replace(from_filenames, to_filenames)
frame.update(media_frame)
frame.to_excel(filename)
的replace()
需要60秒。任何方式來加速這一點?這不是龐大的數據或任務,我期待熊貓更快地移動。 FYI我試圖與CSV文件一樣做同樣的處理,但節省的時間是最小的(在replace()
約50秒)
'from_filenames'和'to_filenames'是'dicts'的列表? – jezrael
@jezrael不只是扁平的字符串列表。單元值 – Neil