2013-10-27 13 views
0

我是Hadoop和Map的新手,我使用舊版本的hadoop 0.19。 我有一個程序,讀取文件/ EXCEL,給我列內容的地方,位置,名稱等映射器可以寫入多個文件

名單讓我們假設我有映射將我輸入文件分爲兩個部分。 這些映射器中的每一個都會給我一個上述實體的列表。

我的問題是:

  1. 如何保持跟蹤數據並單獨保存的地點和名稱列表從每個mapper.How每個文件都將減速機識別這些文件,並拿出的地方綜合名單和每個文件的另一個名稱。

說DOC-1:

list of places from mapper1---NY,1 US,2 
list of names from mapper1---James 3 ,Ron 8 
list of places from mapper-2 --NY 6 UK 5 
list of names from mapper 2--Kate 9 

這樣的事情。

如何保存每個映射器的輸出以及每個類型的實體的名稱或地點。

reducer如何識別和減少名稱,並提出最終列表或只有位置,並提出與該文件有關的最終列表。

請幫助我,並讓我知道任何方法,幫助我在Java中做到這一點。

回答

0

如果這是一個僅限地圖的作業,則會有與Mappers相同數量的輸出文件。如果這是一個MapReduce作業,您可以指定Reducers的數量。提供一個將數據從特定映射器發送到特定Reducer的分區器。如果您不確定Mappers的數量,請將Reducers的數量略高於總數,並僅使用Partitioner的前n個Reducers。

相關問題