Mapreduce Vs Spark Vs Storm Vs Drill - 對於小文件

我知道spark在內存計算方面做得比MapReduce快得多。我想知道如何火花工作說唱記錄< 10000？我有大量的文件（每個文件有大約10000條記錄，說100列文件）進入我的hadoop數據平臺，我需要執行一些數據質量檢查之前我加載到hbase。Mapreduce Vs Spark Vs Storm Vs Drill - 對於小文件

我在後端使用MapReduce的配置單元中進行數據質量檢查。對於每個文件大約需要8分鐘，這對我來說很不好。火花會給我更好的表現讓我說2-3分鐘？

我知道我必須做一個長凳標記，但我想在這裏理解這裏的基礎知識，然後才真正開始使用火花。正如我回憶起第一次創建RDD將是一個開銷，因爲我需要爲每個傳入文件創建一個新的RDD，這會花費我一些時間。

我很困惑這對我來說是最好的方法 - 火花，鑽，風暴還是Mapreduce本身？

來源

2015-08-15 Garfield

鑑於您提供的信息，它幾乎不可能回答這個問題。什麼具體的數字=「數量龐大的文件」？這些文件中的數據類型是什麼？什麼是你正在執行的確切的「數據質量檢查」，需要8分鐘？您正在使用哪些特定的硬件 - 1k節點或10個節點？ – gobrewers14

@ GoBrewers14：我每天會收到約4000個文件。該文件包含由管道（文本數據）分隔的數據字段。我執行的數據質量的類型是在每一列（文件級別檢查），使文件包含有效數據，沒有缺失的值，空字符串，無效的日期格式等。我有大約100列，我做檢查50列可能會增加。目前我工作在三節點集羣，我知道這不是一個好的選擇。但是我期待的是得到一種我能得到的表現。 – Garfield

@ GoBrewers14：因爲我有大約10000條記錄，增加節點的數量可能並沒有真正的幫助，因爲數據將總是小於我的塊大小（糾正我，如果我錯了），我現在使用mapr hadoop發行版。如果我說我有10個節點的集羣，它將如何表現更好？我使用oozie來安排任務，所以oozie的滯後也必須得到照顧 – Garfield

我只是在探索的性能，對數百萬記錄的Drill vs Spark vs Hive。蒔蘿&火花均約快5-10倍在我的情況下（我沒有執行任何性能測試，具有顯着RAM的羣集，我剛剛在單節點上測試）快速計算的原因 - 他們都執行內存中計算。

鑽機的性能&火花在我的情況下幾乎可比。所以，我不能說哪一個更好。你需要在你的最後嘗試。

鑽機測試不會花費太多時間。 Download最新演習，install在您的mapr hadoop羣集上，添加配置單元存儲plugin並執行query。

來源

2015-12-24 08:34:43

Mapreduce Vs Spark Vs Storm Vs Drill - 對於小文件

回答

相關問題