partitioner

    0熱度

    3回答

    大師! 任何人都可以回答:在Partitioner類中定義的參數numPartitions(此參數的值)?

    0熱度

    1回答

    我試圖分析默認的地圖縮小作業,它沒有定義映射器或縮減器。使用IdentityMapper & IdentityReducer 即一個爲了讓自己清楚,我只是寫我的身份減速 public static class MyIdentityReducer extends MapReduceBase implements Reducer<Text,Text,Text,Text> { @Overri

    6熱度

    1回答

    如何向特定減速器發送特定記錄? 我知道Partitioner類和它做了什麼,但我沒有看到確保記錄到達所有reducer的任何簡單方法。 基本上,分區程序有以下方法: int getPartition(K2 key, V2 value, int numPartitions) 我最初的想法是讓分區程序和映射合作如下:映射保持輸出記錄等於減少數量的次數任務和分區程序返回所

    7熱度

    2回答

    我使用Hadoop來分析非常不均勻的數據分佈。有些鍵有數千個值,但大多數只有一個。例如,與IP地址相關的網絡流量將會有很多數據包與少數健談的IP相關聯,而只有少數數據包與大多數IP相關。另一種說法是,Gini index非常高。 爲了有效地處理這種情況,每個減速器都應該獲得幾個大容量的鑰匙或大量的小容量鑰匙,以便獲得大致均勻的負載。我知道如果我正在編寫分區過程,我將如何執行此操作:我將採用由映射程