獲取每個Mapper中的每個鍵或全局Spark MapReduce模型中的每個鍵的計數

我們需要獲取每個鍵的計數（鍵在執行之前是未知的），並在每個Mapper中動態執行一些計算。關鍵點數可能是全球性的，或者僅在每個Mapper中。什麼是最好的實現方式？在Hadoop中，這與聚合器功能類似。獲取每個Mapper中的每個鍵或全局Spark MapReduce模型中的每個鍵的計數

Spark中的累加器需要在Mapper作業運行之前定義。但是我們不知道那裏有多少鑰匙。

2015-03-31 WindChaser

您可以使用pairRDD.countByKey（）函數根據它們的鍵對行進行計數。

2015-04-08 13:48:17 Kaushal

回答