我有一個需要三個輸入並執行兩個外部連接的spark任務。數據採用鍵值格式(String,Array [String])。代碼的最重要的部分是: val partitioner = new HashPartitioner(8000)
val joined = inputRdd1.fullOuterJoin(inputRdd2.fullOuterJoin(inputRdd3, partitioner
我想在amazon EMR實例上運行pyspark以從dynamodb讀取數據,並想知道如何在代碼中設置拆分和工人數量? 我遵循以下兩個文檔中的說明來提供當前連接到dynamoDB並讀取數據的代碼。 connecting to dynamoDB from pyspark 和Pyspark documentation from pyspark.context import SparkContext