5
我試圖用spark從amazon s3抓取文件(以DataFrame或RDD的形式),做一些簡單的轉換,然後將文件發送到DynamoDB上的表。從Spark寫入DynamoDB
在閱讀了其他一些論壇帖子後,我明白了對DynamoDB的讀寫需要使用hadoopRDD--它與spark中的RDD不同 - 與我在其中檢索我的s3不同文件。
我會如何將一個DataFrame/RDD從s3中的文件更改爲hadoopRDD,以便我可以將其發送回去?
我使用scala並測試了spark-shell中的所有內容。
再次提前致謝!
Hi @Willks你有沒有得到解決方案將rdd轉換爲Spark-scala中的hadoopRDD。 – Yogesh