我試着去設計,可以定期從外部API「下載」大量數據的系統..最佳途徑
此用戶可以有大約60萬條我需要的數據記錄,然後每隔一小時左右覈對兩個數據集。
我想最終在後臺任務中使用python或ruby做這件事,但我很好奇如何存儲數據。
是否有可能/好主意將所有內容存儲在一個記錄中散列爲json vs單獨拷貝每個記錄?
這將是很好的能夠索引或搜索數據沒有任何失敗,所以我想知道什麼是最好的實現內存明智。
例如,如果用戶有500,000條推文記錄,並且我想存儲所有這些記錄,這會是更好的實施方式嗎?
一條記錄爲JSON => user_1 = {id:1 twt:「blah」},{id:2 twt:「blah」},..... {id:600,000 twt:「blah」}
VS
多條記錄=>
ID:1 outside_id = 1 TWT: 「嗒嗒」
ID:2 outside_id = 1 TWT: 「嗒嗒」
ID:3 outside_id = 1 twt:「blah」
我是c無論如何我會發現每種方法的內存密集程度如何,或者什麼是最佳解決方案。
記錄很複雜,每個記錄可能有40個屬性,我想存儲。
也可以MySQL或MongoDB更快的複製/存儲解決方案嗎?
1.是的,探索性分析可能會涉及收集每條記錄的數據。 2.是報告是理想的3.兩者實際上......這使我意識到兩種模式可能是最佳的......一種設計爲快速獲取數據,另一種在內存中快速處理4.理想的基礎設施可輕鬆擴展5。模式將被標準化6.我真的只是尋找最快的解決方案來測試 – ChrisWesAllen