0
我有一套我在Hive和Pig中導入的數據(〜1TB)。使用我們的整個hadoop集羣,但是我有很大的時間差異,Hive在計算記錄數量方面比豬要快得多。爲什麼計數豬的項目比配置單元慢得多
select count(*) from india_tab;
Time taken: 61.103 seconds, Fetched: 1 row(s)
在PIG:
data = LOAD 'warehouse/india_tab/*' USING PigStorage()
AS (ac_id:int, c_code01:chararray, longitude:float, latitude:float, satillite:chararray, month:chararray, day:chararray, timestamp:int, cm:int, li:double, tir:int,vis:int);
grpd = GROUP data ALL;
cnt = FOREACH grpd GENERATE COUNT(data);
DUMP cnt;
Runtime: 6m 9s
所以我再次進行了測試,豬跑了很多1111臺mappers,1臺reducer,蜂巢另一方面是mappers的數量:406;還原劑的數量:1 我看不清楚爲什麼Pig會使用更多,PARALLEL文檔默認說它也是1,所以看起來它們使用相同數量的還原劑 – BrockP 2014-12-04 21:34:15