我知道spark在內存計算方面做得比MapReduce快得多。 我想知道如何火花工作說唱記錄< 10000? 我有大量的文件(每個文件有大約10000條記錄,說100列文件)進入我的hadoop數據平臺,我需要執行一些數據質量檢查之前我加載到hbase。Mapreduce Vs Spark Vs Storm Vs Drill - 對於小文件
我在後端使用MapReduce的配置單元中進行數據質量檢查。對於每個文件大約需要8分鐘,這對我來說很不好。 火花會給我更好的表現讓我說2-3分鐘?
我知道我必須做一個長凳標記,但我想在這裏理解這裏的基礎知識,然後才真正開始使用火花。 正如我回憶起第一次創建RDD將是一個開銷,因爲我需要爲每個傳入文件創建一個新的RDD,這會花費我一些時間。
我很困惑這對我來說是最好的方法 - 火花,鑽,風暴還是Mapreduce本身?
鑑於您提供的信息,它幾乎不可能回答這個問題。什麼具體的數字=「數量龐大的文件」?這些文件中的數據類型是什麼?什麼是你正在執行的確切的「數據質量檢查」,需要8分鐘?您正在使用哪些特定的硬件 - 1k節點或10個節點? – gobrewers14
@ GoBrewers14:我每天會收到約4000個文件。該文件包含由管道(文本數據)分隔的數據字段。我執行的數據質量的類型是在每一列(文件級別檢查),使文件包含有效數據,沒有缺失的值,空字符串,無效的日期格式等。我有大約100列,我做檢查50列可能會增加。目前我工作在三節點集羣,我知道這不是一個好的選擇。但是我期待的是得到一種我能得到的表現。 – Garfield
@ GoBrewers14:因爲我有大約10000條記錄,增加節點的數量可能並沒有真正的幫助,因爲數據將總是小於我的塊大小(糾正我,如果我錯了),我現在使用mapr hadoop發行版。如果我說我有10個節點的集羣,它將如何表現更好?我使用oozie來安排任務,所以oozie的滯後也必須得到照顧 – Garfield