2013-03-21 86 views
-1

我是hadoop和mapreduce的新手。我在hadoop Mapreduce中運行數據時遇到問題。我想要以毫秒爲單位給出結果。有什麼方法可以在毫秒內執行我的Mapreduce作業嗎? 如果不是,那麼hadoop mapreduce在完全分佈式多羣集(5-6個節點)中可以採用的最短時間是多少。 要在hadoop mapreduce中分析的文件大小約爲50-100Mb 程序是用Pig.Any suggesstions編寫的?MapReduce作業所花費的時間

+0

得到一個真的非常非常快的電腦。 – 2013-03-21 19:15:30

+0

感謝您的建議。 – 2013-03-22 04:15:47

回答

0

這是不可能的(afaik)。 hadoop並不意味着實時的東西。它最適合批量作業。 mapreduce框架需要一些時間來接受和設置工作,這是你無法避免的。我不認爲這是一個明智的決定,讓超高端機器建立一個hadoop集羣。另外,框架在實際開始工作之前還必須做一些事情,比如創建數據的邏輯分割。

+0

感謝您的建議。 – 2013-03-22 04:15:18

1

用於即時查詢數據使用Imapala,Apache Drill(WIP)。演習根據Google Dremel

Hive作業被轉換成MapReduce,因此Hive也是批處理方式,而不是實時的。儘管如此,許多工作正在改進Hive的性能(12)。