漿紗 有由Hortonworks給計算您上漿
((初始大小+年增長+中間體數據大小)* REPL Cpount * 1.2)/ COMP RATIO
假設默認的公式乏
repl_count == 3(默認) comp_ration = 3-4(默認) 中間體數據大小= 30%的原始數據大小.- 1,2-因子-50% - 臨時空間
因此,對於您的第一年,您將需要16.9 TB。你有8TB * 5 == 40.所以空間不是話題。
性能 5 Datanodes。閱讀1 TB平均需要2.5小時(源Hadoop - 權威指南)。一個驅動器的600 GB將是1.5個小時。估計您已複製,以便可以並行使用全部5個節點,這意味着讀取5個節點的整個數據可能會長達18分鐘。
根據您對查詢所做的操作以及如何配置數據處理,您可能需要增加一些時間。
內存consumution
48 GB並不多。許多數據節點的默認RAM從128 GB開始。如果僅將羣集用於處理,則可能會解決問題。也取決於一點,如何配置集羣以及您用於處理哪些技術。如果您具有併發訪問權限,則可能會遇到堆錯誤。
概括起來:
這很大程度上取決於你想要做什麼,你集羣和多麼複雜你的查詢都是。同時請記住,併發訪問可能會產生問題。
如果處理時間爲600 GB的數據需要18分鐘(作爲基線 - 實際值取決於許多未知的因素,則回答該問題)就足夠了,並且您沒有併發訪問權限。
正如我剛纔所說,我不需要每次執行7tb數據,每個月我只能分析600GB的數據。 – Ank
我根據您的輸入編輯了我的答案 –