我有一個家庭作業分配,其中必須檢索某個文檔中不同單詞的總數。檢索Hadoop中縮減輸入組的數量
這與Hadoop提供的WordCount示例非常相似。但是現在我只想要文檔中不同單詞的總數。在控制檯輸出中,減少輸入組的數量對應於不同單詞的總數。
有沒有簡單的方法來檢索這個數字,甚至沒有減少數據。或者Map/Reduce不是解決這個問題的方法。鏈接也可以是一個解決方案,但是因爲答案已經在作業的控制檯輸出中提供了,所以我想知道是否沒有簡單的方法來檢索減少輸入組的數量而不做不需要的東西。
問候, Hadoop的新人
感謝您的輸入我現在使用「減少輸入組」計數器的值。這可以通過使用'Job'實例'job.getCounters()。findCounter(「org.apache.hadoop.mapred.Task $ Counter」,「REDUCE_INPUT_GROUPS」)''的以下方法找到。我使用Hadoop 1.0.0 – roelio 2012-02-22 11:51:16