2016-10-05 89 views
-4

我有一個日誌文件,這個大小是200Gb。 我嘗試找到執行此操作的方式,但我不知道。 我認爲分割這個文件是沒用的,但也許有辦法做到這一點。 也許我可以做到這一點MapreduceHadoop?我不使用這個應用程序,但也許任何人有這個任務,並可以幫助解決方案。Python:處理日誌文件200GB

+0

什麼日誌文件格式?給我們更多的細節和你到目前爲止的嘗試 – SerialDev

+0

@SerialDev它包含4列:'ID url used_at active_seconds',它的權重是200 GB。我無法打開它的文件,並且無法在python控制檯中加載它 –

+0

你想用文件做什麼?你爲什麼不能一行一行地閱讀它? – Matthias

回答

1

對於不適合在RAM文件中,在成批讀:

chunksize = 10 ** 6 
for chunk in pd.read_csv(filename, chunksize=chunksize): 
    process(chunk) 

從SQL查詢又如:

df_list = [] 
for chunk in pd.read_sql_query(sql , conn, chunksize=10): 
    df_list.append(chunk) 
frames=pd.concat(df_list, ignore_index=True)