Hadoop的DynamoDB InputFormat

我必須使用Hadoop map reduce來處理在Amazon Dynamo DB中保存的一些數據。Hadoop的DynamoDB InputFormat

我在因特網上搜索Dynamo DB的Hadoop InputFormat並找不到它。我對Dynamo DB不熟悉，所以我猜測有一些與DynamoDB和Hadoop相關的技巧？如果有任何地方可以實現這種輸入格式，請分享一下嗎？

2012-10-22 dino.keco

經過大量搜索之後，我在Amazon的一個庫中找到了DynamoDBInputFormat和DynamoDBOutputFormat。

在亞馬遜彈性地圖上減少了一個叫做hive-bigbird-handler的庫，它包含了dynamoDB的輸入和輸出格式。全類名是：org.apache.hadoop.hive.dynamodb.write.DynamoDBOutputFormat和org.apache.hadoop.hive.dynamodb.read.DynamoDBInputFormat

我希望這些類將是社會有用。

來源

2012-10-29 18:36:22

無法找到可直接在MapReduce中使用的InputFormat。但是，這裏有一篇文章AWS HowTo: Using Amazon Elastic MapReduce with DynamoDB (Guest Post)使用Hive來運行MarReduce作業。

來源

2012-10-23 05:02:10

感謝我瞭解這一點，但我想要使用我無法在Hive中實現的自定義代碼執行特定的數據轉換。 –

如何使用現有的或爲轉換創建自定義[Hive UDF]（https://cwiki.apache.org/Hive/languagemanual-udf.html）？ –

對不起，但我的商業計劃不適合自定義的UDF。我需要編寫自定義Hadoop地圖縮減作業。此外，我想如果這不存在，我會寫DynamoDBInputFromat並將它發佈在這裏，一旦我完成。 –

Hadoop的DynamoDB InputFormat

回答

相關問題