1
我有一個3000萬行數據集,我需要將大量數據轉換規則應用於。對於這個任務,我試圖探索熊貓作爲一種可能的解決方案,因爲我目前的解決方案不是很快。使用熊貓來操縱多列
目前,我正在逐行處理數據集,然後將其導出到磁盤上的新表(CSV文件)。
有5種功能的用戶可以在給定列內對數據執行:
- 刪除空白
- 大寫所有文本
- 格式日期
- 代替字母/數字
- 替換word
我的第一個念頭是使用數據框的apply或applmap,但這隻能用於單個列。
有沒有辦法使用apply或applymap到許多列而不是隻有一個? 有沒有更好的工作流程,我應該考慮的,因爲我可以做的操作,以1:n列在我的數據集,其中列的最大數量由目前的30
謝謝
不會因此受到影響的表現給我的數據集的大小?如果我不得不循環三千五百萬次,說5或6次? –
是的,它是最快的解決方案,請參閱類似答案中的[timing](http://stackoverflow.com/a/38562413/2901002)。 – jezrael
好的,我會嘗試一下,讓你知道我是怎麼做出來的!謝謝 –