2016-05-25 54 views
5

我試圖用spark從amazon s3抓取文件(以DataFrame或RDD的形式),做一些簡單的轉換,然後將文件發送到DynamoDB上的表。從Spark寫入DynamoDB

在閱讀了其他一些論壇帖子後,我明白了對DynamoDB的讀寫需要使用hadoopRDD--它與spark中的RDD不同 - 與我在其中檢索我的s3不同文件。

我會如何將一個DataFrame/RDD從s3中的文件更改爲hadoopRDD,以便我可以將其發送回去?

我使用scala並測試了spark-shell中的所有內容。

再次提前致謝!

+0

Hi @Willks你有沒有得到解決方案將rdd轉換爲Spark-scala中的hadoopRDD。 – Yogesh

回答

0

您可以使用亞馬遜實施的EMR DynamoDB Connector。它實現了DynamoDBInputFormat和DynamoDBOutputFormat,允許從DynamoDB讀寫數據。

你可以在這blog post瞭解更多關於此。