我想在amazon EMR實例上運行pyspark以從dynamodb讀取數據,並想知道如何在代碼中設置拆分和工人數量? 我遵循以下兩個文檔中的說明來提供當前連接到dynamoDB並讀取數據的代碼。 connecting to dynamoDB from pyspark 和Pyspark documentation from pyspark.context import SparkContext
|T 2009-08-26 17:1...|
|U http://twitter....|
| W No Post Title|
| |
|T 2009-11-01 02:4...|
|U http://twitter....|
| W No Post Title|
| |
|T 2009-11-18 16:5...|
|U http://twitter...
我在scala Spark中訓練了一個LDA模型。 val lda = new LDA().setK(k).setMaxIter(iter).setFeaturesCol(colnames).fit(data)
lda.save(path)
我檢查了我保存的模型,它包含兩個文件夾:元數據和數據。 然而,當我嘗試這種模式加載到PySpark,我得到了一個錯誤說: model = LDAMod