2015-08-15 86 views
0

我知道spark在內存計算方面做得比MapReduce快得多。 我想知道如何火花工作說唱記錄< 10000? 我有大量的文件(每個文件有大約10000條記錄,說100列文件)進入我的hadoop數據平臺,我需要執行一些數據質量檢查之前我加載到hbase。Mapreduce Vs Spark Vs Storm Vs Drill - 對於小文件

我在後端使用MapReduce的配置單元中進行數據質量檢查。對於每個文件大約需要8分鐘,這對我來說很不好。 火花會給我更好的表現讓我說2-3分鐘?

我知道我必須做一個長凳標記,但我想在這裏理解這裏的基礎知識,然後才真正開始使用火花。 正如我回憶起第一次創建RDD將是一個開銷,因爲我需要爲每個傳入文件創建一個新的RDD,這會花費我一些時間。

我很困惑這對我來說是最好的方法 - 火花,鑽,風暴還是Mapreduce本身?

+0

鑑於您提供的信息,它幾乎不可能回答這個問題。什麼具體的數字=「數量龐大的文件」?這些文件中的數據類型是什麼?什麼是你正在執行的確切的「數據質量檢查」,需要8分鐘?您正在使用哪些特定的硬件 - 1k節點或10個節點? – gobrewers14

+0

@ GoBrewers14:我每天會收到約4000個文件。該文件包含由管道(文本數據)分隔的數據字段。我執行的數據質量的類型是在每一列(文件級別檢查),使文件包含有效數據,沒有缺失的值,空字符串,無效的日期格式等。我有大約100列,我做檢查50列可能會增加。目前我工作在三節點集羣,我知道這不是一個好的選擇。但是我期待的是得到一種我能得到的表現。 – Garfield

+0

@ GoBrewers14:因爲我有大約10000條記錄,增加節點的數量可能並沒有真正的幫助,因爲數據將總是小於我的塊大小(糾正我,如果我錯了),我現在使用mapr hadoop發行版。如果我說我有10個節點的集羣,它將如何表現更好?我使用oozie來安排任務,所以oozie的滯後也必須得到照顧 – Garfield

回答

0

我只是在探索的性能,對數百萬記錄的Drill vs Spark vs Hive。蒔蘿&火花均約快5-10倍在我的情況下(我沒有執行任何性能測試,具有顯着RAM的羣集,我剛剛在單節點上測試)快速計算的原因 - 他們都執行內存中計算。

鑽機的性能&火花在我的情況下幾乎可比。所以,我不能說哪一個更好。你需要在你的最後嘗試。

鑽機測試不會花費太多時間。 Download最新演習,install在您的mapr hadoop羣集上,添加配置單元存儲plugin並執行query

相關問題