並行處理多個文件

我有一個Perl腳本，它讀取兩個文件並處理它們。並行處理多個文件

第一個文件 - 信息文件 - I將其存儲爲一個散列（3.5 GB）

第二個文件 - taregt文件 - 我通過使用從信息文件和其他子程序信息按照設計處理。（此文件，目標，範圍從30 - 60 GB）

到目前爲止的工作是：

我想在平行於所有塊運行：

while(chunks){ 
    # do something 

    sub a {} 
    sub b {} 
}

所以BASICA lly，我想讀取一個塊，寫出它的輸出，並在同一時間爲多個塊執行此操作。 while循環讀取塊文件的每一行，並調用各種子例程進行處理。

有沒有辦法，我可以讀取背景數據塊的方式？

我不想讀信息的文件，每一塊，因爲它是3.5GB長，我讀它變成亂碼，這會佔用3.5GB每次。

眼下腳本需要1 - 2小時爲30-60gb運行。

有很多過濾和丟棄的，所以整個目標文件的outout是500MB的〜我 –

所期望的OS讀的背景下一塊，甚至沒有被要求！ – ikegami

你說這個文件是3.5GB，並且保存它的散列是3.5GB ......我非常懷疑這一點。哈希值可能會更多。 – ikegami

您可以嘗試使用Perl threads如果並行任務是獨立的。

2012-09-11 17:50:17 Jean

進程（分叉）對於這個任務會更好。 – snoofkin

你能指點我一個關於流程（分叉）的快速教程嗎？謝謝！ –

3.5GB散列非常大，您應該考慮使用數據庫來代替。根據你如何做到這一點，你可以通過散列來訪問數據庫。

如果記憶是一個不是問題的問題，fork ING將是最簡單的解決方案。但是，這會重複該過程，包括散列，並且只會導致不必要的交換。

如果不能釋放一些內存，你應該考慮到use threads。 Perl線程只存在於解釋器內部，並且對操作系統不可見。這些線程與fork ing類似，但是，您可以聲明變量爲:shared。（你必須use threads::shared）

2012-09-11 17:51:54 amon

關於什麼的模塊File::Map（內存映射），它可以方便讀取大文件。

use strict; 
use File::Map qw(map_file); 

map_file my $map, $ARGV[0]; # $ARGV[0] - path to your file 
# Do something with $map

2012-09-11 18:40:41

感謝您的建議艾農和fxzuz。我正在研究線程和File :: Map。我需要的是線程不同的輸出。是的，這些塊是獨立的。我不想去數據庫的方式，因爲我需要的關鍵信息（不知道如何工作:)）） –

回答