熊貓使用大量更多的內存用於存儲比要求

我在Ubuntu 16.10上使用numpy（1.13.1）和pandas（0.20.3），使用python 2.7或3.5（兩者都有相同的問題）。熊貓使用大量更多的內存用於存儲比要求

我正在研究熊貓記憶處理（特別是當它複製或不復制數據）並遇到了我不明白的重大記憶問題。雖然我已經看到（很多）人們關於其內存性能的其他問題，但我還沒有發現任何直接解決此問題的方法。

具體而言，熊貓分配lot更多的內存比我問它。我注意到，當只是想分配一個數據幀具有特定大小的列了一些非常奇怪的現象：

import pandas as pd, numpy as np 
GB = 1024**3 
df = pd.DataFrame() 
df['MyCol'] = np.ones(int(1*GB/8), dtype='float64')

當我執行此我看到我的蟒蛇過程實際上分配6GB內存，（12G如果我問了2GB ，如果我要求3GB，則爲21GB，如果我要求4GB，則計算機會中斷： - /），而不是預期的1GB。我首先想到的可能是Python正在進行一些積極的預分配，但是如果我只是自己構建numpy數組，我會得到我每次要求的內存量，無論是1GB，10GB，25GB，無論如何。

此外，什麼是更有趣的是，如果我稍微改變代碼如下：

df['MyCol'] = np.ones(int(1*GB), dtype='uint8')

它分配這麼多的內存崩潰我的系統（單獨運行numpy的呼叫正確地分配1GB內存）。（編輯2017/8/17：出於好奇，我今天嘗試使用更新版本的熊貓（0.20.3）和numpy（1.13.1），並將RAM升級到64GB，並且運行此命令仍然失敗，分配所有64（ISH）GB可用RAM的。）

我能理解加倍，甚至三倍問，如果大熊貓進行復印，也許是內存的分配另一列存儲索引，但我不能解釋它實際上在做什麼。粗略瀏覽代碼也不完全清楚。

我試着以幾種不同的方式構建數據框，所有的結果都一樣。鑑於其他人成功地使用這個軟件包進行大數據分析，我必須假定我正在做一些可怕的錯誤，儘管從我能告訴給出的文檔應該是正確的。

想法？

一些附加註釋：

即使當存儲器使用率大，熊貓仍然（錯誤地），如果我分配一個1GB陣列它報告1GB報告時memory_usage（）被調用所期望的數據大小（即，即使實際分配了6-10GB）。
在所有情況下，索引都很小（由memory_usage（）報告，這可能不準確）。
取消分配大熊貓DataFrame（df = None，gc.collect（））實際上並不釋放所有內存。使用這種方法必定會有泄漏。

來源

2017-01-09 Anthony

嘗試此代替：'DF = pd.DataFrame（{ 'MyCol'：np.ones（INT（1 * GB）， dtype = np.uint8）}）' – MaxU

@MaxU雖然這樣表現更好，但它仍然不夠完美。有一個很大的開銷（對象的大小的100％，多一點），得到分配（我認爲這是製作一份數據的副本）。這似乎有比我的例子中更多似是而非的解釋，但如果我不幸地需要拋出超過15GB的內存，這並沒有幫助。（注意：即使數據被分割到多個通道上，也會發生這種情況，例如，3個5GB通道需要使用此方法分配近30GB的數據，因此如果正在創建數據副本，則不會將其釋放，直到最後纔會釋放它們。） – Anthony

df.index佔用了多少空間？如果添加另一列，可能是相同的'np.array'，內存如何使用更改？ – hpaulj

所以我做一個8000字節數組：

In [248]: x=np.ones(1000) 

In [249]: df=pd.DataFrame({'MyCol': x}, dtype=float) 
In [250]: df.info() 
<class 'pandas.core.frame.DataFrame'> 
Int64Index: 1000 entries, 0 to 999 
Data columns (total 1 columns): 
MyCol 1000 non-null float64 
dtypes: float64(1) 
memory usage: 15.6 KB

這樣8K的數據和8K的索引。

我添加列 - 通過x大小使用率增加：

In [251]: df['col2']=x 
In [252]: df.info() 
<class 'pandas.core.frame.DataFrame'> 
Int64Index: 1000 entries, 0 to 999 
Data columns (total 2 columns): 
MyCol 1000 non-null float64 
col2  1000 non-null float64 
dtypes: float64(2) 
memory usage: 23.4 KB 

In [253]: x.nbytes 
Out[253]: 8000

來源

2017-01-09 17:51:02 hpaulj

我用一些筆記更新了我的問題。即使實際分配了更多（例如6GB），Pandas也會報告預期的內存使用率（例如，如果我創建1GB陣列，則報告1GB）。當對象被銷燬並且垃圾收集器被運行時，它也沒有釋放所有分配的內存，這讓我相信在熊貓中可能會有內存泄漏。 – Anthony

因此，您更關心一路上的內存使用情況，而不是最終用法。我不知道如果你製作numpy數組會發生什麼，然後複製一個加上相同大小的'np.arange（）'（索引數組）。換句話說，嘗試創建相同的最終numpy數組，但沒有'df'結構。 – hpaulj

兩者，但這是「最終」用法。 DataFrame可能只有1GB，但如果分配的內存總量（仍然是分配的，不是在構建對象的過程中使用的）增加了6倍，那真是一個問題。另外，在使用uint8分配1GB進行初始化的情況下注意事實上會炸燬我的內存（32GB）並崩潰。這些都是問題。正如在構建post後所提到的那樣，numpy數組本身沒有問題，只把它放到一個數據框中。 – Anthony

熊貓使用大量更多的內存用於存儲比要求

回答

相關問題