0
我是Hadoop和Map的新手,我使用舊版本的hadoop 0.19。 我有一個程序,讀取文件/ EXCEL,給我列內容的地方,位置,名稱等映射器可以寫入多個文件
名單讓我們假設我有映射將我輸入文件分爲兩個部分。 這些映射器中的每一個都會給我一個上述實體的列表。
我的問題是:
- 如何保持跟蹤數據並單獨保存的地點和名稱列表從每個mapper.How每個文件都將減速機識別這些文件,並拿出的地方綜合名單和每個文件的另一個名稱。
說DOC-1:
list of places from mapper1---NY,1 US,2
list of names from mapper1---James 3 ,Ron 8
list of places from mapper-2 --NY 6 UK 5
list of names from mapper 2--Kate 9
這樣的事情。
如何保存每個映射器的輸出以及每個類型的實體的名稱或地點。
reducer如何識別和減少名稱,並提出最終列表或只有位置,並提出與該文件有關的最終列表。
請幫助我,並讓我知道任何方法,幫助我在Java中做到這一點。