Pyspark聚集 - 以不同的方式

我有一個具有四個基本領域的一些數據聚合的各個領域：Pyspark聚集 - 以不同的方式

場1是一個用於數據的關鍵
字段2應該是一個集合中的所有唯一值此字段
字段3是最小值（時間戳）
字段4是最大值（時間戳）

原始代碼看起來是這樣的：

data = (
    dataframe 
    .rdd 
    # flatten rows 
    .flatMap(lambda x: x) 
    # Parse JSON 
    .flatMap(lambda x: encode_json(x)) 
    # Capture values 
    .map(lambda x: [ 
     # Merge 'field1', 'field2' --> 'field1, field2' 
     ','.join(_ for _ in [x.get('metadata_value'), x.get('field2')]), 
     # Create pairing of low and high timestamps 
     [x.get('low'), x.get('high')] 
    ]) 
    # Aggregate into a list of low/high timestamps per 'field1, field2' 
    .aggregateByKey(list(), lambda u, v: u + [v], lambda u1, u2: u1 + u2) 
    # Flatten keys 'ip,guid' --> 'ip', 'guid' 
    .map(lambda x: (x[0].split(',')[0], x[0].split(',')[1], x[1], sum(1 for _ in x[1]))) 
    # Reduce timestamps to single values: [s1, e1], [s2, e2], ... --> s_min, e_max 
    .map(lambda x: (x[0], x[1], min(_[0] for _ in x[2]), max(_[1] for _ in x[2]), x[3])) 
)

原始輸出如下：

a | x| 20160103 | 20160107 
a | x013579 | 20160101 | 20160106

新的輸出應該是這樣的：

a | {x,x013579} | 20160101 | 20160107

來源

2016-11-14 Brian Bruggeman

添加這2個變換你的電流輸出，映射到一對RDD，並通過相應的操作（詞典，最小值，最大值）減少每個字段。

data.map(lambda reg: (reg[0],[reg[1],reg[2],reg[3]])) .reduceByKey(lambda v1,v2: ({v1[0],v2[0]},min(v1[1],v2[1]), max(v1[2],v2[2])))

來源

2016-11-15 09:07:26

Pyspark聚集 - 以不同的方式

回答

相關問題