1
我已經編寫了將CSV和XML文件轉換爲JSON的代碼。 我已經在非常小的文件上測試過了,代碼按預期工作。如何分解JSON轉換爲批處理?
在不久的將來,我將處理大量文件,這些文件需要分解成批處理,以便將它們處理並解析爲JSON以防止系統由於高內存使用而崩潰。
是否有任何模塊可以幫助我批量處理文本數據?
我已經編寫了將CSV和XML文件轉換爲JSON的代碼。 我已經在非常小的文件上測試過了,代碼按預期工作。如何分解JSON轉換爲批處理?
在不久的將來,我將處理大量文件,這些文件需要分解成批處理,以便將它們處理並解析爲JSON以防止系統由於高內存使用而崩潰。
是否有任何模塊可以幫助我批量處理文本數據?
也許你可以使用pd.read_table與特定CHUNKSIZE分批
我用它來閱讀數以百萬計的RAW
chunksize = 1000000
for chunk in pd.read_table(r"D:\file.json.gz", chunksize=chunksize, sep="\r\t", engine="python", names=head, compression="gzip"):
... your procesing :-D
巨大的CSV文件讀取這些文件然後我加載批次,1百萬行,用大熊貓處理它
我有自己的算法來完成所有的處理,唯一的問題是它將整個文件寫入內存。我想限制這一點。 –