2016-02-05 85 views
0

我想分析7TB的數據並將輸出存儲在數據庫中,比如說HBase。 我的每月增量是500GB,但爲了分析500GB數據,我不需要再次通過7TB的數據。Hadoop機器配置

目前我正在考慮將Hadoop與Hive一起用於分析數據,並使用Hadoop與MapReducer和HBase來處理和存儲數據。

目前我有5臺機器以下配置:

數據節點服務器配置:2-2.5兆赫六核心CPU,48 GB RAM,1個TB -7200 RPM(X 8)

數數據的節點:5

名稱節點服務器:企業級服務器配置(X 2)(1個額外的二次

我想知道如果上述過程足以給出的要求,並且如果任何人有任何建議。

回答

0

漿紗 有由Hortonworks給計算您上漿

((初始大小+年增長+中間體數據大小)* REPL Cpount * 1.2)/ COMP RATIO

假設默認的公式乏

repl_count == 3(默認) comp_ration = 3-4(默認) 中間體數據大小= 30%的原始數據大小.- 1,2-因子-50% - 臨時空間

因此,對於您的第一年,您將需要16.9 TB。你有8TB * 5 == 40.所以空間不是話題。

性能 5 Datanodes。閱讀1 TB平均需要2.5小時(源Hadoop - 權威指南)。一個驅動器的600 GB將是1.5個小時。估計您已複製,以便可以並行使用全部5個節點,這意味着讀取5個節點的整個數據可能會長達18分鐘。

根據您對查詢所做的操作以及如何配置數據處理,您可能需要增加一些時間。

內存consumution

48 GB並不多。許多數據節點的默認RAM從128 GB開始。如果僅將羣集用於處理,則可能會解決問題。也取決於一點,如何配置集羣以及您用於處理哪些技術。如果您具有併發訪問權限,則可能會遇到堆錯誤。

概括起來:

這很大程度上取決於你想要做什麼,你集羣和多麼複雜你的查詢都是。同時請記住,併發訪問可能會產生問題。

如果處理時間爲600 GB的數據需要18分鐘(作爲基線 - 實際值取決於許多未知的因素,則回答該問題)就足夠了,並且您沒有併發訪問權限。

+0

正如我剛纔所說,我不需要每次執行7tb數據,每個月我只能分析600GB的數據。 – Ank

+0

我根據您的輸入編輯了我的答案 –

0

我會建議轉換抵達時的數據。通過切換到列式壓縮格式,Hive可以提供巨大的速度提升,如ORCParquet。我們正在談論潛在的x30-x40時間improvements in queries performance。使用最新的Hive,您可以在ORC文件上使用streaming data ingest。你可以按照你的計劃(HBase + Hive)放置東西,只需要5x(6核心,48GB,7200RPM)的蠻力,但你不必這樣做。一點工作可以讓你進入交互式的特設查詢時間區域,這將打開數據分析。