從Spark寫入DynamoDB

2016-05-25 102 views 5 likes

我試圖用spark從amazon s3抓取文件（以DataFrame或RDD的形式），做一些簡單的轉換，然後將文件發送到DynamoDB上的表。從Spark寫入DynamoDB

在閱讀了其他一些論壇帖子後，我明白了對DynamoDB的讀寫需要使用hadoopRDD--它與spark中的RDD不同 - 與我在其中檢索我的s3不同文件。

我會如何將一個DataFrame/RDD從s3中的文件更改爲hadoopRDD，以便我可以將其發送回去？

我使用scala並測試了spark-shell中的所有內容。

再次提前致謝！

2016-05-25 Willks

Hi @Willks你有沒有得到解決方案將rdd轉換爲Spark-scala中的hadoopRDD。 – Yogesh

回答

您可以使用亞馬遜實施的EMR DynamoDB Connector。它實現了DynamoDBInputFormat和DynamoDBOutputFormat，允許從DynamoDB讀寫數據。

你可以在這blog post瞭解更多關於此。

2017-08-02 17:02:33

相關問題