-4
我有一個日誌文件,這個大小是200Gb。 我嘗試找到執行此操作的方式,但我不知道。 我認爲分割這個文件是沒用的,但也許有辦法做到這一點。 也許我可以做到這一點Mapreduce
或Hadoop
?我不使用這個應用程序,但也許任何人有這個任務,並可以幫助解決方案。Python:處理日誌文件200GB
我有一個日誌文件,這個大小是200Gb。 我嘗試找到執行此操作的方式,但我不知道。 我認爲分割這個文件是沒用的,但也許有辦法做到這一點。 也許我可以做到這一點Mapreduce
或Hadoop
?我不使用這個應用程序,但也許任何人有這個任務,並可以幫助解決方案。Python:處理日誌文件200GB
對於不適合在RAM文件中,在成批讀:
chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)
從SQL查詢又如:
df_list = []
for chunk in pd.read_sql_query(sql , conn, chunksize=10):
df_list.append(chunk)
frames=pd.concat(df_list, ignore_index=True)
什麼日誌文件格式?給我們更多的細節和你到目前爲止的嘗試 – SerialDev
@SerialDev它包含4列:'ID url used_at active_seconds',它的權重是200 GB。我無法打開它的文件,並且無法在python控制檯中加載它 –
你想用文件做什麼?你爲什麼不能一行一行地閱讀它? – Matthias