我有一個自制的數據集,數百萬行。我正在嘗試製作截斷的副本。所以我剪下我用來製作原始數據集並創建一個新數據集的張量。但是,當我保存只有20K行的新數據集時,它與原始數據集的磁盤大小相同。否則一切似乎猶太教,包括,當我檢查,新張量的大小。我究竟做錯了什麼?Pytorch張量/數據集的調整大小副本
#original dataset - 2+million rows
dataset = D.TensorDataset(training_data, labels)
torch.save(dataset, filename)
#20k dataset for experiments
d = torch.Tensor(training_data[0:20000])
l = torch.Tensor(labels[0:20000])
ds_small = D.TensorDataset(d,l)
#this is the same size as the one above on disk... approx 1.45GB
torch.save(ds_small, filename_small)
感謝
如果我的答案適合您,請考慮將其標記爲正確答案,以便問題不再顯示爲未答覆。 – McLawrence