免責聲明如何處理TB級的數據及時事情
我是一名小商店系統管理員。
現狀
我將獲得約3 TB的數據,其中每一個邏輯單元由選自
含有目錄:
- 在包含元數據 CSV格式的文本文件
- 包含實際數據的二進制文件
所以最後我有一個大量的目錄樹和很多小文件。
我的工作是將元數據文件從CSV轉換爲XML。我通常使用Perl來處理這個問題。新創建的XML文件將與相應的二進制數據一起復制到一個新的目錄中,該目錄將由閉源軟件包的導入程序讀入。該導入過程本質上是串行的。它只是在另一個目錄後面讀取並處理它。越快越好。
在過去,我只是運行Perl轉換腳本和下一個導入過程的幾個實例,以實現某種程度的並行化。現在,隨着這3 TB以我的方式出現,我懷疑這個結果會非常好。
硬件方面,我擁有6臺物理機器,我可以在其上啓動有限數量的輕量級VM(特定於Solaris區域)。我說'數量有限',因爲這些機器已經運行帶有服務的虛擬機。
最後一個約束:由於數據的敏感性,使用任何類型的雲服務都不成問題。
問題
我怎麼能去了解這個聰明?有專門的解決方案嗎?我開始研究Hadoop,但我仍然需要處理它如何幫助解決我的問題。
我可以在Perl格式化腳本中構建線程,我可以運行它的幾個實例來處理目錄樹的不同部分。這部分我完全受到控制。
我無法控制的部分是軟件包的導入程序 - 我僅限於創建其他實例並觀察它們。
任何意見如何處理這將不勝感激。