1
我在Hadoop
中實現了WordCount.java
的定製版本,其中我有興趣輸出每個節點的字數。Hadoop - 每個節點的字數
例如,給定文本:
FindMe FindMe ..... .... .... ..更多大的文本...... FindMe FindMe FindMe
FindMe node01: 2
FindMe node02: 3
這裏是我的Mapper
String searchString = "FindMe";
while (itr.hasMoreTokens()) {
String token = itr.nextToken();
if (token.equals(searchString)) {
word.set(token);
context.write(word, one);
}
}
此代碼輸出
片段FindMe n
其中n是所有輸入中出現的總次數。
如何輸出每個節點的計數以及此節點的某種標識符,就像我上面提供的示例一樣?
感謝您的及時回覆。有沒有像'node01,node02,...'偶然增加一個更方便遞增的nodeId? –
我認爲跨節點有字數統計,您需要在關鍵字中包含nodename,以便類似的關鍵字在同一個reducer中聚合。 –