2014-01-18 50 views
0

我需要從文件系統1傳輸2,000個文件(30 TB未壓縮數據)到文件系統2(通過gzip壓縮時減少到約8 TB),通過100 MB /秒的帶寬。gzip文件從一個文件系統到另一個最快的方式

是否有命令可以將gzip文件直接寫入新文件系統,因此我不必傳輸30 TB數據,而只需將gzip文件複製到新系統中?

此命令是否有效,還是有其他的選擇?

gzip -c /my/dir/foo.txt > /my/new/filesystem/foo.txt.gz 

換句話說,這個命令只會嘗試複製壓縮的gz文件,而不是整個文件,對嗎?所以在/ my/new/filesystem /我的文件將使用1/3的空間比原來的/ my/dir /?

數據處於高性能羣集中,因此我可以並行傳輸它們,但我不確定要使用多少個並行內核。如果我使用2,000個內核,我可能無法獲得太多的速度,因爲處理器的速度總是比100MB/sec的速度更快。

我正在尋找gzip命令,並尋求一種很好的並行策略來儘可能快地傳輸數據。

注1。新服務器(文件系統)連接到羣集,它通過100 MB /秒的連接與舊文件系統進行通信。我稱之爲羣集的是一個可以並行提交多個作業的計算中心(更多詳細信息見注2)。我將數據傳輸到的新服務器是戴爾服務器,帶有12個熱插拔硬盤驅動器和2個有線硬盤驅動器的PE R515,LED和AMD Opteron 42XX Procs,4TB 7.2K RPM近線SAS 6Gbps 3.5英寸熱插拔硬盤。更多信息:http://mindmeeting.blogspot.com/2014/01/server-information.html。操作系統是centOS 6.

注2。這是關於集羣體系結構的更多信息。原始集羣由分佈在32個M1000機箱中的512個Dell PowerEdge M600刀片構建而成,每個刀片採用雙至強E5410 2.3Ghz四核處理器,總共4096個內核。這些節點中的每一個都具有32 GB RAM以及DDR Infiniband和Gb以太網連接。它已經擴展到下面的架構,增加了專用訪問,交互,專業和服務系統以及幾個附加的計算節點組。羣集映像基於RHEL 5,共享存儲託管在幾個nfs(即:主目錄)和兩個光盤實例(分別爲高性能暫存和數據)上。

回答

2

的幾點思考:

1)我想標杆 「rsync的」 與壓縮,因爲它是重新啓動。您也可以並行執行多個「rsyncs」。

2)另外,磁盤是否連接到SAN?您可以將新文件系統安裝到現有主機上,然後卸載並重新安裝到新主機上?

3)另外,絕對不要低估裝滿磁帶的卡車的帶寬!如果您的LTO具有比您的網絡更高的帶寬。

有關您的系統的一些其他信息會對您有所幫助。 SAN,基礎設施,服務器之間的距離,是否可以臨時添加網絡接口...

+0

我在帖子中回答。可悲的是我沒有太多的信息。 – Dnaiel

相關問題