我需要同時處理大量文件(數千個不同的文件,每個文件的平均大小爲2MB)。並行處理多個文件 - 複製文件或通過NFS讀取?
所有的信息存儲在一個(1.5TB)的網絡硬盤驅動器上,並將由大約30個不同的機器處理。爲了提高效率,每臺機器都會讀取(和處理)不同的文件(有數千個需要處理的文件)。
每臺機器 - 在從1.5TB硬盤驅動器上的「傳入」文件夾中讀取文件後 - 將處理信息並準備好將處理後的信息輸出回到處理過的信息文件夾1.5TB的驅動器。每個文件的處理信息與輸入文件的平均大小大致相同(每個文件大約2MB)。
什麼是更好的事:
(1)對於每一個加工機器中號,複製將被中號被加工成其本地硬盤驅動器,然後將所有文件中讀取&過程在機器上本地文件M。 (2)不是將文件複製到每臺機器,而是每臺機器直接(使用NFS)訪問「傳入」文件夾,並從那裏讀取文件,然後在本地處理它們。
哪個想法更好?當有人做這樣的事情時,有沒有「做」和「不做」?
如果30臺機器同時讀取(或寫入)信息到同一個網絡驅動器是一個問題,我大多好奇嗎? (注意:現有文件只能被讀取,不能被附加/寫入;新的文件將從頭開始創建,因此不存在多次訪問同一文件的問題...)。我應該期待什麼瓶頸?
(我使用Linux,Ubuntu的10.04 LTS上的所有機器,如果一切事宜)
謝謝布拉德。 – user3262424 2010-12-16 01:36:38