reducers

0熱度

2回答

我想獲取每個映射器和減速器任務的ID，因爲我想根據映射器和減速器ID來標記這些映射器和減速器的輸出。我如何檢索每個的ID？感謝

1熱度

3回答

我的映射器發出 'uniq key' - '非常大的值'對。我的減速機並不知道這個鑰匙是唯一的。因此，減速器將等待所有的繪圖器完成。我試過使用組合器，但對我來說這不是一個簡單的解決方案，因爲我的減速器非常複雜。我的問題是如何在每個地圖之後執行減速器？而不使用組合器。

9熱度

2回答

亞馬遜MapReduce沒有reducer作業

我想通過AWS（一個流式作業）創建一個映射只有作業。 Reducer字段是必需的，所以我給了一個虛擬可執行文件，並將-jobconf mapred.map.tasks = 0添加到Extra Args框中。在已安裝的hadoop環境（版本0.20）中，不會啓動Reducer作業，但在AWS中，可執行文件將啓動並失敗。如何才能在AWS中運行一個沒有reducer/mapper的作業？

1熱度

1回答

MapReduce低效減速器

除了map函數輸出的所有鍵都相同之外，什麼會導致MapReduce作業中只有一個Reducer？

1熱度

1回答

Hadoop PIG輸出沒有在PARALLEL運算符中被拆分成多個文件

看起來我錯過了一些東西。我的數據減少的數量創建了HDFS中的許多文件，但我的數據不會被拆分爲多個文件。我注意到的是，如果我上的鍵是按順序做了group by它工作得很好，像基於鍵下方拆分數據很好地爲兩個文件： 1 hello 2 bla 1 hi 2 works 2 end 但是這數據不拆： 1 hello 3 bla 1 hi 3 works 3 end ，我使用了一

0熱度

1回答

將reducer輸出目錄路徑保存到Hadoop中的變量中

如何將Hadoop還原器的輸出路徑保存爲變量？該變量將被所有其他MR作業使用。這些工作將是連續的。所有順序MR作業都會將其相應的輸出寫入該輸出目錄。我需要他們的路徑變量進行相應的更新。