0
我使用(Python的)熊貓的映射函數來處理一個很大的CSV文件(約50千兆字節),像這樣:使用pandas數據框的多處理映射?
import pandas as pd
df = pd.read_csv("huge_file.csv")
df["results1"], df["results2"] = df.map(foo)
df.to_csv("output.csv")
有沒有一種方法,我可以在此使用並行?也許使用多處理的地圖功能?
感謝, 何塞
注意(就像在Mongo的數據庫拆分)如果你需要重疊的數據(如軋製時間序列迴歸塊級並行工作不正常)在要映射的操作中。在這些情況下,首先形成熊貓羣體並手動將它們分派到不同的資源進行計算要快得多,比如每個分散到IPython.parallel中的引擎。 – ely