reducers

1熱度

1回答

我有一個場景，我不確定減少處理器位置的位置。 ⅰ）我有一個輸入的文本文件，它具有整數的1000的以平衡取值範圍爲1和4 ⅱ）讓我們假設有一個4節點集羣12個槽的每個節點之間其中4個被分配爲減速器 - 給我們總共16個減少插槽三）我已經設置在駕駛員減速的數量： jobConf.setNumReduceTasks(4); III）和最後給我一個分區方法是 public class MyParti

1熱度

2回答

Hadoop - 將減速器編號設置爲0但寫入相同的文件？

我的工作是計算密集型的，所以我實際上只使用Hadoop的分佈函數，並且我希望我的所有輸出都位於1個單個文件中，因此我將reducer的數量設置爲1.我的reducer實際上什麼都不做。通過明確設置reducer的數量爲0，我可以知道如何控制映射器中的所有輸出寫入同一個輸出文件？謝謝。

0熱度

2回答

設置地圖任務的數量

在配置Map Reduce作業時，我知道可以使用方法job.setNumReduceTasks(2);設置減少任務的數量。我們可以設置地圖任務的數量嗎？我沒有看到任何方法來做到這一點。如果沒有這樣的功能，有人知道爲什麼這個框架有能力有超過1減少任務，但不超過1個地圖任務？

1熱度

2回答

Hadoop映射器是否僅在本地執行？

我有一種情況，在一個機器和默認複製因子文件謊言的整個塊是1 在這種情況下，如果我在我的羣集中啓動的Hadoop，我覺得我所有的映射任務將只運行因爲塊只存在於該機器上。這樣對嗎？本地映射器任務執行是一個約束還是一個優先級？如果是，是否可以通過將映射器任務也複製到其本地磁盤的方式在其他機器上運行來進行配置。第二個問題是，即使映射任務只在一臺機器上運行，它是正確的，減速將在所有其他計算機通過複製映射

0熱度

2回答

同樣的鑰匙在不同的減速器進來hadoop

我遇到一些非常奇怪的事情。我在不同的減速器中獲得相同的鑰匙。我只是打印並收集了關鍵和值。我的reducer代碼如下所示。 public void reduce(Text key, Iterator<Text> values, OutputCollector<Text, Text> output, Reporter reporter) throws IOException { System.ou

0熱度

1回答

如何使用mrjob mapper reducer在Python中編寫迭代，計數器是循環中計算的一部分？

我有一個程序，迭代mapper和reducer連續的n次。但是，對於每次迭代，每個鍵 - 值對的映射器都會計算出一個取決於n的值。 from mrjob.job import mrjob class MRWord(mrjob): def mapper_init_def(self): self.count = {} def mapper_count(sel

5熱度

1回答

Hadoop中的作業和任務調度

當我在閱讀關於延遲公平調度in this slide時，我對Hadoop中的術語「作業調度」和「任務調度」有些困惑。請糾正我，如果我在下面的假設是錯誤的：默認調度，調度能力和公平調度在作業級別是唯一有效的多個作業時，由用戶預定。如果系統中只有單一工作，他們不起任何作用。這些調度算法形成「作業調度」的基礎每個作業可以有多個映射和減少任務，它們是如何分配給每臺機器的？如何安排一項工作的任務？什麼

0熱度

1回答

在MapReduce中如何在處理X記錄後停止Reducer

我正在使用Mapper加載具有執行時間和大量查詢的大量數據..我只需要查找1000個最昂貴的查詢，所以我將執行時間作爲映射器輸出的關鍵字。我使用1個減速器，只需要寫入1000條記錄，減速器停止處理。我可以有一個全球性的櫃檯和做如果（計數< 1000）{ context.write（鍵，值） } 但是，這仍然會加載記錄所有的數十億美元，然後不寫他們。我想要減速機在吐出1000條記錄後停止。通過

1熱度

1回答

hadoop中的全部命令分區器

我完全陌生於totalorderpartitioner的概念，我已經應用了這個概念，但是我沒有成功地生成全局排序。這是我的輸入記錄 676576 7489768576 689576857867857 685768578678578675 765897685789675879679587 1 5 6 7 8 9 0 2 3 5 6 9 這是我的映射 public

1熱度

1回答

在Oozie工作流中設置MapReduce作業中的Reducer數量

我有一個五節點集羣，其中三個節點包含DataNode和TaskTracker。我通過Sqoop從Oracle導入了大約1000萬行數據行，並通過Oozie工作流程中的MapReduce進行處理。 MapReduce作業大約需要30分鐘，只使用一個reducer。編輯 - 如果我自己運行MapReduce代碼，與Oozie分開，job.setNumReduceTasks(4)正確地建立了4個re