Hadoop機器配置

我想分析7TB的數據並將輸出存儲在數據庫中，比如說HBase。我的每月增量是500GB，但爲了分析500GB數據，我不需要再次通過7TB的數據。Hadoop機器配置

目前我正在考慮將Hadoop與Hive一起用於分析數據，並使用Hadoop與MapReducer和HBase來處理和存儲數據。

目前我有5臺機器以下配置：

數據節點服務器配置：2-2.5兆赫六核心CPU，48 GB RAM，1個TB -7200 RPM（X 8）

數數據的節點：5

名稱節點服務器：企業級服務器配置（X 2）（1個額外的二次

我想知道如果上述過程足以給出的要求，並且如果任何人有任何建議。

來源

2016-02-05 Ank

漿紗有由Hortonworks給計算您上漿

（（初始大小+年增長+中間體數據大小）* REPL Cpount * 1.2）/ COMP RATIO

假設默認的公式乏

repl_count == 3（默認） comp_ration = 3-4（默認）中間體數據大小= 30％的原始數據大小.- 1,2-因子-50％ - 臨時空間

因此，對於您的第一年，您將需要16.9 TB。你有8TB * 5 == 40.所以空間不是話題。

性能 5 Datanodes。閱讀1 TB平均需要2.5小時（源Hadoop - 權威指南）。一個驅動器的600 GB將是1.5個小時。估計您已複製，以便可以並行使用全部5個節點，這意味着讀取5個節點的整個數據可能會長達18分鐘。

根據您對查詢所做的操作以及如何配置數據處理，您可能需要增加一些時間。

內存consumution

48 GB並不多。許多數據節點的默認RAM從128 GB開始。如果僅將羣集用於處理，則可能會解決問題。也取決於一點，如何配置集羣以及您用於處理哪些技術。如果您具有併發訪問權限，則可能會遇到堆錯誤。

概括起來：

這很大程度上取決於你想要做什麼，你集羣和多麼複雜你的查詢都是。同時請記住，併發訪問可能會產生問題。

如果處理時間爲600 GB的數據需要18分鐘（作爲基線 - 實際值取決於許多未知的因素，則回答該問題）就足夠了，並且您沒有併發訪問權限。

來源

2016-02-05 12:28:52

正如我剛纔所說，我不需要每次執行7tb數據，每個月我只能分析600GB的數據。 – Ank

我根據您的輸入編輯了我的答案 –

我會建議轉換抵達時的數據。通過切換到列式壓縮格式，Hive可以提供巨大的速度提升，如ORC或Parquet。我們正在談論潛在的x30-x40時間improvements in queries performance。使用最新的Hive，您可以在ORC文件上使用streaming data ingest。你可以按照你的計劃（HBase + Hive）放置東西，只需要5x（6核心，48GB，7200RPM）的蠻力，但你不必這樣做。一點工作可以讓你進入交互式的特設查詢時間區域，這將打開數據分析。

來源

2016-02-08 07:54:06

Hadoop機器配置

回答

相關問題