0
我們需要獲取每個鍵的計數(鍵在執行之前是未知的),並在每個Mapper中動態執行一些計算。關鍵點數可能是全球性的,或者僅在每個Mapper中。什麼是最好的實現方式?在Hadoop中,這與聚合器功能類似。獲取每個Mapper中的每個鍵或全局Spark MapReduce模型中的每個鍵的計數
Spark中的累加器需要在Mapper作業運行之前定義。但是我們不知道那裏有多少鑰匙。
我們需要獲取每個鍵的計數(鍵在執行之前是未知的),並在每個Mapper中動態執行一些計算。關鍵點數可能是全球性的,或者僅在每個Mapper中。什麼是最好的實現方式?在Hadoop中,這與聚合器功能類似。獲取每個Mapper中的每個鍵或全局Spark MapReduce模型中的每個鍵的計數
Spark中的累加器需要在Mapper作業運行之前定義。但是我們不知道那裏有多少鑰匙。
您可以使用pairRDD.countByKey()函數根據它們的鍵對行進行計數。