假設我有很多JSON條目,它們都包含兩個字段,a
和b
。當讀取每個JSON時(假設我們分別讀取a_0
和b_0
的值分別爲a
和b
),我想查看有多少個JSON條目有b = a_0
。有沒有一種有效的方式來做到這一點?如果數據大於10GB,我應該將它轉爲數據庫嗎?代碼將在Python如何在python中搜索多個json數據?
編輯0:總數據大小將> 100GB,因此有必要縮放代碼。這可能意味着我無法將數據放入內存。
編輯1:基本上我們沒有看到數據['a'] ==數據['b']。我希望看到:對於具有a_0和b_0的特定json條目,其餘json條目中滿足a_0 = b要求的條數有多少。希望這一次更清楚。
是的,對於那麼大的數據你應該使用數據庫。 – wim
你有什麼嘗試?它會是一次性的嗎?它需要多次運行嗎? 10GB不是很多數據,但它可能不適合你的記憶。您仍然可以在幾秒鐘內解析這些信息,但如果您的應用程序要求更快的響應,則這可能還不夠。 –
更新了問題。數據可能無法適應內存大小。 –