我有一種情況,我需要將管道中的主數據流(1.5TB)連接到2個不同的數據集(4.92GB和17.35GB)。我用來爲兩者執行CoGroupByKey的關鍵是相同的。有沒有辦法避免在第一次完成後重新排列連接的左側?目前我只是將輸出作爲KV>。這似乎比在第一次連接之後分段發射每個元素要好,但第二個groupByKey似乎仍然比我預期的要長很多。我打算開始考慮拆分CoGroupByKey,看看我是否可以忽略一方的分組,但是我現在確實感到更安全,在這一點上不會降低到這個水平。多個CoGroupByKey具有相同的密鑰apache梁
This was prior to keeping Iterables grouped after the first join
CoGroupByKey支持任意數量的輸入集合。是否有可能將所有3個輸入集合鍵入相同,並按順序執行一個CoGroupByKey而不是2個? –