我有大約40GB的數據分成幾個json文件並存儲在Google存儲中。我想在Datalab中讀取所有這些數據作爲數據框來執行一些分析。在Google Datalab中讀取大量數據的最快方法?
到目前爲止,我根據Datalab教程閱讀了我的數據,但需要1-2個小時。任何建議更有效地閱讀它?
我的代碼看起來是這樣的:
def export_data(log_name,path):
log_path = path + log_name + '.json'
data = storage.Item('my-bucket', log_path).read_from()
return data
file_names = ['file_01',..,'file_60']
path = 'my-bucket/path'
dataset = [export_data(file_name,path) for file_name in file_names]
data_frames = [pd.read_json(StringIO(data)) for data in dataset]
df = pd.concat([data_frame for data_frame in data_frames],axis=0)