emr

0熱度

2回答

我正在嘗試使用mrjob運行示例字數統計map reduce任務。我收到以下錯誤： Traceback (most recent call last): File "mr.py", line 3, in <module> from mrjob.job import MRJob File "/Library/Frameworks/EPD64.framework/Vers

1熱度

1回答

使用JSON數據運行Hive查詢時出錯？

我有一個包含數據如下： {"field1":{"data1": 1},"field2":100,"field3":"more data1","field4":123.001} {"field1":{"data2": 1},"field2":200,"field3":"more data2","field4":123.002} {"field1":{"data3": 1},"field2":30

1熱度

1回答

EMR - Hive和Java在一起

我正在使用Amazon Elastic-Map-Reduce。是否可以運行使用java代碼的HIVE查詢（使用Transform功能）？當我創建一個新的工作流，我需要一個定製的罐子和一個蜂巢程序之間進行選擇，而我兩者都需要提前... 謝謝！

1熱度

2回答

在EMR上運行mahout RecommenderJob

我試圖在amazon EMR上運行RecommenderJob。我有一個名爲SmartJukebox.jar（不可運行）的jar，它包含一個main.TrackRecommander類（就是這樣）。我創建了罐子的作業流程： S3N：//smartjukebox/SmartJukebox.jar 和args： main.TrackRecommander --input S3N：// smartju

0熱度

1回答

在EMR上的MRJob中導入模塊

簡單的問題：我有一個模塊headers.py，它在我的主MRJob腳本中定義了一些我需要的變量。我應該能夠運行與 python MRMyJob -r emr --file=headers.py s3://input/data/path ，然後在我的MRJob腳本（MRMyJob）的工作，下面應該工作： from headers import header1, header2, header3

4熱度

2回答

使用EMR在不同賬戶中複製dynamoDB表

我想在一個DynamoDB賬戶中有很多信息表，我想轉移到另一個賬戶。我發現您可以使用EMR在一個帳戶內複製表格，如下所示：http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html，但有沒有辦法在不同帳戶之間進行轉帳？

2熱度

2回答

Hive Table添加分區以加載所有子目錄

我使用配置單元（與外部表）處理存儲在亞馬遜S3上的數據。我的數據被劃分如下： group/team/dt/（例如，數據文件可以被存儲在一個路徑group=myGroup/team=myTeam/dt=20120603）我想處理用於幾個團隊數據（在不同的基團）。由於RCOVER PARTITIONS需要很長時間，因此我希望將基於組和團隊值的多個分區添加到配置單元表（即給定該團隊中所有可用日期的

0熱度

1回答

Amazon EMR JSON

我正在使用Amazon EMR Hadoop Hive進行大數據處理。我的日誌文件中的當前數據爲CSV格式。爲了從日誌文件中創建表，我編寫了正則表達式來解析數據並存儲到外部表的不同列中。我知道SerDe可以用來讀取JSON格式的數據，這意味着每個日誌文件行都可以作爲JSON對象。如果我的日誌文件採用JSON格式比較CSV格式，是否有任何Hadoop性能優勢？

0熱度

1回答

如何使EMR保持運行

可能重複： Re-use Amazon Elastic MapReduce instance 我可以保持一個推出EMR集羣運行和不斷提交新的就業機會，直到我做了（比如說後幾天），然後關閉羣集，還是必須在EC2中配置我自己的羣集才能這樣做？

1熱度

2回答

使用distcp和s3distcp與輸出到HDFS的EMR作業使用的問題

我已經在AWS的EMR上運行作業，並將輸出存儲在EMR作業的HDFS中。然後我嘗試通過distcp或s3distcp將結果複製到S3，但兩者都失敗，如下所述。（注：原因我不只是直接送我的EMR作業的輸出S3是由於（目前未解決）問題我在Where is my AWS EMR reducer output for my completed job (should be on S3, but no