如何處理TB級的數據及時事情

我是一名小商店系統管理員。

現狀

我將獲得約3 TB的數據，其中每一個邏輯單元由選自

含有目錄：

所以最後我有一個大量的目錄樹和很多小文件。

我的工作是將元數據文件從CSV轉換爲XML。我通常使用Perl來處理這個問題。新創建的XML文件將與相應的二進制數據一起復制到一個新的目錄中，該目錄將由閉源軟件包的導入程序讀入。該導入過程本質上是串行的。它只是在另一個目錄後面讀取並處理它。越快越好。

在過去，我只是運行Perl轉換腳本和下一個導入過程的幾個實例，以實現某種程度的並行化。現在，隨着這3 TB以我的方式出現，我懷疑這個結果會非常好。

硬件方面，我擁有6臺物理機器，我可以在其上啓動有限數量的輕量級VM（特定於Solaris區域）。我說'數量有限'，因爲這些機器已經運行帶有服務的虛擬機。

最後一個約束：由於數據的敏感性，使用任何類型的雲服務都不成問題。

問題

我怎麼能去了解這個聰明？有專門的解決方案嗎？我開始研究Hadoop，但我仍然需要處理它如何幫助解決我的問題。

我可以在Perl格式化腳本中構建線程，我可以運行它的幾個實例來處理目錄樹的不同部分。這部分我完全受到控制。

我無法控制的部分是軟件包的導入程序 - 我僅限於創建其他實例並觀察它們。

任何意見如何處理這將不勝感激。

-1

估計進口商進行元數據處理和二進制文件處理的時間。
識別瓶頸（帶走大部分加工時間） - 進口商？
複製/繁殖瓶頸資源（進口商） - 由VM？
編寫一個腳本（控制器）來控制每個虛擬機的進程和腳本（Worker）。的Controler將被解析的元數據（平行如果需要）和工作下一部分發送到工人（由小的配置文件或由種TCP/IP協議的）。
或者你可以使用分佈式方法無控制以股代息，但這會更難以實現。

我認爲Hadoop的將是矯枉過正。

2013-12-28 12:54:48 jacek2v

回答