我必須使用Hadoop map reduce來處理在Amazon Dynamo DB中保存的一些數據。Hadoop的DynamoDB InputFormat
我在因特網上搜索Dynamo DB的Hadoop InputFormat並找不到它。我對Dynamo DB不熟悉,所以我猜測有一些與DynamoDB和Hadoop相關的技巧?如果有任何地方可以實現這種輸入格式,請分享一下嗎?
我必須使用Hadoop map reduce來處理在Amazon Dynamo DB中保存的一些數據。Hadoop的DynamoDB InputFormat
我在因特網上搜索Dynamo DB的Hadoop InputFormat並找不到它。我對Dynamo DB不熟悉,所以我猜測有一些與DynamoDB和Hadoop相關的技巧?如果有任何地方可以實現這種輸入格式,請分享一下嗎?
經過大量搜索之後,我在Amazon的一個庫中找到了DynamoDBInputFormat和DynamoDBOutputFormat。
在亞馬遜彈性地圖上減少了一個叫做hive-bigbird-handler的庫,它包含了dynamoDB的輸入和輸出格式。 全類名是:org.apache.hadoop.hive.dynamodb.write.DynamoDBOutputFormat和org.apache.hadoop.hive.dynamodb.read.DynamoDBInputFormat
我希望這些類將是社會有用。
無法找到可直接在MapReduce中使用的InputFormat。但是,這裏有一篇文章AWS HowTo: Using Amazon Elastic MapReduce with DynamoDB (Guest Post)使用Hive來運行MarReduce作業。
感謝我瞭解這一點,但我想要使用我無法在Hive中實現的自定義代碼執行特定的數據轉換。 –
如何使用現有的或爲轉換創建自定義[Hive UDF](https://cwiki.apache.org/Hive/languagemanual-udf.html)? –
對不起,但我的商業計劃不適合自定義的UDF。我需要編寫自定義Hadoop地圖縮減作業。 此外,我想如果這不存在,我會寫DynamoDBInputFromat並將它發佈在這裏,一旦我完成。 –