2013-11-21 21 views
3

免責聲明如何處理TB級的數據及時事情

我是一名小商店系統管理員。

現狀

我將獲得約3 TB的數據,其中每一個邏輯單元由選自

含有目錄:

  • 在包含元數據
  • CSV格式的文本文件
  • 包含實際數據的二進制文件

所以最後我有一個大量的目錄樹和很多小文件。

我的工作是將元數據文件從CSV轉換爲XML。我通常使用Perl來處理這個問題。新創建的XML文件將與相應的二進制數據一起復制到一個新的目錄中,該目錄將由閉源軟件包的導入程序讀入。該導入過程本質上是串行的。它只是在另一個目錄後面讀取並處理它。越快越好。

在過去,我只是運行Perl轉換腳本和下一個導入過程的幾個實例,以實現某種程度的並行化。現在,隨着這3 TB以我的方式出現,我懷疑這個結果會非常好。

硬件方面,我擁有6臺物理機器,我可以在其上啓動有限數量的輕量級VM(特定於Solaris區域)。我說'數量有限',因爲這些機器已經運行帶有服務的虛擬機。

最後一個約束:由於數據的敏感性,使用任何類型的雲服務都不成問題。

問題

我怎麼能去了解這個聰明?有專門的解決方案嗎?我開始研究Hadoop,但我仍然需要處理它如何幫助解決我的問題。

我可以在Perl格式化腳本中構建線程,我可以運行它的幾個實例來處理目錄樹的不同部分。這部分我完全受到控制。

我無法控制的部分是軟件包的導入程序 - 我僅限於創建其他實例並觀察它們。

任何意見如何處理這將不勝感激。

回答

-1
  1. 估計進口商進行元數據處理和二進制文件處理的時間。
  2. 識別瓶頸(帶走大部分加工時間) - 進口商?
  3. 複製/繁殖瓶頸資源(進口商) - 由VM?
  4. 編寫一個腳本(控制器)來控制每個虛擬機的進程和腳本(Worker)。的Controler將被解析的元數據(平行如果需要)和工作下一部分發送到工人(由小的配置文件或由種TCP/IP協議的)。
  5. 或者你可以使用分佈式方法無控制以股代息,但這會更難以實現。

我認爲Hadoop的將是矯枉過正。