的Python多的內存使用情況

我已經writen，可以總結如下的程序：的Python多的內存使用情況

def loadHugeData(): 
    #load it 
    return data 

def processHugeData(data, res_queue): 
    for item in data: 
     #process it 
     res_queue.put(result) 
    res_queue.put("END") 

def writeOutput(outFile, res_queue): 
    with open(outFile, 'w') as f 
     res=res_queue.get() 
     while res!='END': 
      f.write(res) 
      res=res_queue.get() 

res_queue = multiprocessing.Queue() 

if __name__ == '__main__': 
    data=loadHugeData() 
    p = multiprocessing.Process(target=writeOutput, args=(outFile, res_queue)) 
    p.start() 
    processHugeData(data, res_queue) 
    p.join()

真正的代碼（尤其是'writeOutput（）'）是一個複雜得多。 'writeOutput（）'只使用這些值作爲它的參數（意思是它沒有引用對象）

基本上，它將一個巨大的數據集加載到內存中並對其進行處理。寫入輸出被委託給一個子進程（它實際上寫入多個文件，這需要很多時間）。因此，每次處理一個數據項時，都會將其發送到子進程槽res_queue，然後根據需要將結果寫入文件。

子進程不需要以任何方式訪問，讀取或修改由'loadHugeData（）'加載的數據。子流程只需要使用主流程通過'res_queue'發送的內容。這導致我的問題和疑問。

在我看來，子進程得到它的巨大數據集的副本（當檢查內存使用'頂'）。這是真的？如果是這樣，那麼我怎麼能避免id（本質上使用雙內存）？

我正在使用Python 2.6並且程序在linux上運行。

來源

2013-02-07 FableBlaze

你可以重構你的代碼來使用迭代器，而不是加載所有loadHugeData？看起來你可以，如果它看起來像加載/進程/入隊/出隊/寫 – sotapme

「hugeData」不幸是一個製表符分隔的txt文件，基本上包含一個稀疏的數組。我需要在處理過程中根據行號「隨機訪問」這些數據。因此將其加載到內存中（使用稀疏陣列特定的優化）可以使處理速度更快。 – FableBlaze

這可能是大規模的過度工程，建議使用'[beanstalkd]（https://github.com/earl/beanstalkc/blob/master/TUTORIAL.mkd）之類的東西進行流程整合，但知道知道如果它幫助/縮放/執行。像往常一樣，其他人的問題總是更有趣。 – sotapme

multiprocessing模塊實際上基於系統調用fork，該系統調用創建當前進程的副本。由於您在加載fork（或創建multiprocessing.Process）之前的大量數據，子進程會繼承數據的副本。但是，如果您正在運行的操作系統實現COW（寫時複製），則實際上只有物理內存中的數據的一個副本，除非您修改父進程或子進程中的數據（父母和孩子都將共享相同的物理內存頁面，儘管在不同的虛擬地址空間中）;即使如此，只會爲更改分配額外內存（以pagesize爲增量）。

在加載大量數據之前，您可以通過調用multiprocessing.Process來避免這種情況。然後，當您在父級中加載數據時，額外的內存分配將不會反映在子進程中。

來源

2013-02-07 11:31:54 isedev

比我做得好。 Linux是COW，所以父進程寫入數據的時刻，數據將被複制。如果父進程只讀取數據，那麼只有一個數據實例** BUT ** top（我幾乎可以肯定）會顯示數據屬於這兩個進程。 meminfo應該爲內存使用提供更準確的數字。 –

確實。我認爲現在最常見的操作系統是COW（我只是試圖儘可能通用）。很棒的功能，但是在解釋基於進程的內存報告工具（例如top，ps等）的輸出時經常會引起混淆。Linux上的'meminfo'將正確報告，就像Solaris上的'pmap'一樣;沒有關於Windows的想法:) – isedev

還要注意，每個Python對象都包含一個引用計數，只要訪問該對象就會被修改。所以，只要讀取數據結構就可以導致COW複製。 –

的Python多的內存使用情況

回答

相關問題