映射器可以寫入多個文件

我是Hadoop和Map的新手，我使用舊版本的hadoop 0.19。我有一個程序，讀取文件/ EXCEL，給我列內容的地方，位置，名稱等映射器可以寫入多個文件

名單讓我們假設我有映射將我輸入文件分爲兩個部分。這些映射器中的每一個都會給我一個上述實體的列表。

我的問題是：

如何保持跟蹤數據並單獨保存的地點和名稱列表從每個mapper.How每個文件都將減速機識別這些文件，並拿出的地方綜合名單和每個文件的另一個名稱。

說DOC-1：

list of places from mapper1---NY,1 US,2 
list of names from mapper1---James 3 ,Ron 8 
list of places from mapper-2 --NY 6 UK 5 
list of names from mapper 2--Kate 9

這樣的事情。

如何保存每個映射器的輸出以及每個類型的實體的名稱或地點。

reducer如何識別和減少名稱，並提出最終列表或只有位置，並提出與該文件有關的最終列表。

請幫助我，並讓我知道任何方法，幫助我在Java中做到這一點。

來源

2013-10-27 user2794362

如果這是一個僅限地圖的作業，則會有與Mappers相同數量的輸出文件。如果這是一個MapReduce作業，您可以指定Reducers的數量。提供一個將數據從特定映射器發送到特定Reducer的分區器。如果您不確定Mappers的數量，請將Reducers的數量略高於總數，並僅使用Partitioner的前n個Reducers。

來源

2013-10-28 09:30:39

映射器可以寫入多個文件

回答

相關問題