2017-02-13 25 views
0

我有一張表格,其中包含200列,其中我需要列表中提到的大約50列, 和最後24個月的列根據列'時間戳'。如何劃分map-reduce任務?

我很困惑什麼是根據映射器和減速器?

因爲它只是轉換,它是否只有映射器階段,或過濾到最後24個月的行將會減速?我不確定這是否正是利用 進行了map-reduce。

我使用python與hadoop流。

回答

0

所以,你有一個200列的列表(比如說T),一個單獨的條目列表(比如L)可以從T和最近的24小時(從T中的時間戳)中選出。

MapReduce,mapper確實從T順序給出條目。在映射器進入map()之前,在setup()中的I.e將代碼塊從L讀取並使其變得方便(使用可行的數據結構來保存數據列表)。現在,你的代碼應該持有兩個檢查/條件1)如果來自T的條目包含/與L匹配。如果是,則檢查2)數據是否在24小時範圍內。

完成。你的輸出是你所期望的。不,這裏需要減速器,至少要做到這一點。

Happy Mapreducing。