2017-06-12 51 views
1

我已經編寫了將CSV和XML文件轉換爲JSON的代碼。 我已經在非常小的文件上測試過了,代碼按預期工作。如何分解JSON轉換爲批處理?

在不久的將來,我將處理大量文件,這些文件需要分解成批處理,以便將它們處理並解析爲JSON以防止系統由於高內存使用而崩潰。

是否有任何模塊可以幫助我批量處理文本數據?

回答

0

也許你可以使用pd.read_table與特定CHUNKSIZE分批

我用它來閱讀數以百萬計的RAW

chunksize = 1000000 

for chunk in pd.read_table(r"D:\file.json.gz", chunksize=chunksize, sep="\r\t", engine="python", names=head, compression="gzip"): 
... your procesing :-D 

巨大的CSV文件讀取這些文件然後我加載批次,1百萬行,用大熊貓處理它

+0

我有自己的算法來完成所有的處理,唯一的問題是它將整個文件寫入內存。我想限制這一點。 –