在Python中加載大型JSON列表的最佳方式是什麼？

我可以訪問一組文件（每個大約80-800mb）。不幸的是，每個文件只有一行。該行只包含一個JSON對象（列表的列表）。加載並將其解析爲較小的JSON對象的最佳方式是什麼？在Python中加載大型JSON列表的最佳方式是什麼？

2012-04-19 Sam Odio

我想您已經至少考慮[標準JSON模塊（http://docs.python.org/library/json.html）。 – C2H5OH 2012-04-19 23:42:33

[將95MB JSON數組拆分爲更小的塊？]（http://stackoverflow.com/questions/7052947/split-95mb-json-array-into-smaller-chunks） – 2012-04-21 02:49:27

@ C2H5OH - 是的，我是希望不將整個事物加載到內存中。 – 2012-04-23 05:30:23

已有類似帖子here。這裏是他們提出的解決方案：

import json 
with open('file.json') as infile: 
    o = json.load(infile) 
    chunkSize = 1000 
    for i in xrange(0, len(o), chunkSize): 
    with open('file_' + str(i//chunkSize) + '.json', 'w') as outfile: 
     json.dump(o[i:i+chunkSize], outfile)

來源

2012-04-19 23:48:07

遇難，這就是python shell所說的 – ashish 2013-07-22 15:48:40

如果你想避免加載整個列表到內存中，你可以先處理該文件爲文本：

使用堆棧跟蹤和開放關閉括號/引號。瀏覽任何開門人的字符串，或當前更近的字符串。在掃描文本時，只需查看更接近的文本。當你閱讀開瓶器時推一個，當你找到更近的時候將其彈出。

的JSON的全套是[ - >]，{ - >}和" - >"。不過你應該排除\"。您可以在http://www.json.org/

檢查規範然後，每當一個]遇到和堆棧只有一個項目啪匹配[後（頂級「[」），那麼你就知道是時候開始新的一行。

最後，您應確保第一個[和上一個]不會出現在您的輸出中。

這將爲您提供單獨的列表中的每個項目的JSON對象，每個項目在文件的單獨一行上。

如果您深入瞭解python JSON庫，應該有一些解析JSON的函數。即使它們不是公共接口的一部分，您也可以利用這些功能。

當然，您可以通過使用JSON庫加載字符串，然後逐項（或多個項目）按照其他答案對其進行傾銷來實現相同。

來源

2012-04-20 00:02:49 chees

當一個完美的json模塊帶有標準庫時，爲什麼這個低級別的掃描方法是必要的？請參閱@鏈接器的答案 – jdi 2012-04-20 00:04:04

我認爲他不希望讓json對象實際存儲在內存中的內存開銷。 json庫的公共接口不允許這樣做。我提到他雖然可以入侵該庫並使用一些輔助函數，但我沒有看過它們。 – chees 2012-04-20 00:06:01

是的，但其他答案中建議的內存問題對於一次性批處理並不是真正的問題。它不一定是一個生產解決方案，只需將其批量化爲較小的對象即可。 – jdi 2012-04-20 00:07:16

模塊pandas 0.21.0現在支持塊大小作爲read_json的一部分。您可以加載並在同一時間處理一個塊：

import pandas as pd 
chunks = pd.read_json(file, lines=True, chunksize = 100) 
for c in chunks: 
    print(c)

來源

2017-11-29 20:31:05 VinceP

在Python中加載大型JSON列表的最佳方式是什麼？

回答

相關問題