Python：處理日誌文件200GB

-4

我有一個日誌文件，這個大小是200Gb。我嘗試找到執行此操作的方式，但我不知道。我認爲分割這個文件是沒用的，但也許有辦法做到這一點。也許我可以做到這一點Mapreduce或Hadoop？我不使用這個應用程序，但也許任何人有這個任務，並可以幫助解決方案。Python：處理日誌文件200GB

什麼日誌文件格式？給我們更多的細節和你到目前爲止的嘗試 – SerialDev

@SerialDev它包含4列：'ID url used_at active_seconds'，它的權重是200 GB。我無法打開它的文件，並且無法在python控制檯中加載它 –

你想用文件做什麼？你爲什麼不能一行一行地閱讀它？ – Matthias

對於不適合在RAM文件中，在成批讀：

chunksize = 10 ** 6 
for chunk in pd.read_csv(filename, chunksize=chunksize): 
    process(chunk)

從SQL查詢又如：

df_list = [] 
for chunk in pd.read_sql_query(sql , conn, chunksize=10): 
    df_list.append(chunk) 
frames=pd.concat(df_list, ignore_index=True)

2016-10-05 09:20:10 SerialDev

回答