emr

    0熱度

    2回答

    我正在嘗試使用mrjob運行示例字數統計map reduce任務。我收到以下錯誤: Traceback (most recent call last): File "mr.py", line 3, in <module> from mrjob.job import MRJob File "/Library/Frameworks/EPD64.framework/Vers

    1熱度

    1回答

    我有一個包含數據如下: {"field1":{"data1": 1},"field2":100,"field3":"more data1","field4":123.001} {"field1":{"data2": 1},"field2":200,"field3":"more data2","field4":123.002} {"field1":{"data3": 1},"field2":30

    1熱度

    1回答

    我正在使用Amazon Elastic-Map-Reduce。 是否可以運行使用java代碼的HIVE查詢(使用Transform功能)? 當我創建一個新的工作流,我需要一個定製的罐子和一個蜂巢程序之間進行選擇,而我兩者都需要提前... 謝謝!

    1熱度

    2回答

    我試圖在amazon EMR上運行RecommenderJob。我有一個名爲SmartJukebox.jar(不可運行)的jar,它包含一個main.TrackRecommander類(就是這樣)。 我創建了罐子的作業流程: S3N://smartjukebox/SmartJukebox.jar 和args: main.TrackRecommander --input S3N:// smartju

    0熱度

    1回答

    簡單的問題:我有一個模塊headers.py,它在我的主MRJob腳本中定義了一些我需要的變量。我應該能夠運行與 python MRMyJob -r emr --file=headers.py s3://input/data/path ,然後在我的MRJob腳本(MRMyJob)的工作,下面應該工作: from headers import header1, header2, header3

    4熱度

    2回答

    我想在一個DynamoDB賬戶中有很多信息表,我想轉移到另一個賬戶。我發現您可以使用EMR在一個帳戶內複製表格,如下所示:http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html,但有沒有辦法在不同帳戶之間進行轉帳?

    2熱度

    2回答

    我使用配置單元(與外部表)處理存儲在亞馬遜S3上的數據。 我的數據被劃分如下: group/team/dt/(例如,數據文件可以被存儲在一個路徑group=myGroup/team=myTeam/dt=20120603) 我想處理用於幾個團隊數據(在不同的基團)。 由於RCOVER PARTITIONS需要很長時間,因此我希望將基於組和團隊值的多個分區添加到配置單元表(即給定該團隊中所有可用日期的

    0熱度

    1回答

    我正在使用Amazon EMR Hadoop Hive進行大數據處理。我的日誌文件中的當前數據爲CSV格式。爲了從日誌文件中創建表,我編寫了正則表達式來解析數據並存儲到外部表的不同列中。我知道SerDe可以用來讀取JSON格式的數據,這意味着每個日誌文件行都可以作爲JSON對象。如果我的日誌文件採用JSON格式比較CSV格式,是否有任何Hadoop性能優勢?

    0熱度

    1回答

    可能重複: Re-use Amazon Elastic MapReduce instance 我可以保持一個推出EMR集羣運行和不斷提交新的就業機會,直到我做了(比如說後幾天),然後關閉羣集,還是必須在EC2中配置我自己的羣集才能這樣做?

    1熱度

    2回答

    我已經在AWS的EMR上運行作業,並將輸出存儲在EMR作業的HDFS中。然後我嘗試通過distcp或s​​3distcp將結果複製到S3,但兩者都失敗,如下所述。 (注:原因我不只是直接送我的EMR作業的輸出S3是由於(目前未解決)問題我在Where is my AWS EMR reducer output for my completed job (should be on S3, but no