emr

    0熱度

    1回答

    我的cascalog EMR作業在S3存儲桶上生成了數千個小文件。它生成的文件數量與我使用的減速器數量相同。傾銷所有這些小文件需要幾分鐘。我想知道是否有方法在S3上連接它們以便我可以快速轉儲它們? 感謝 康

    1熱度

    1回答

    編輯運行EMR的Hadoop流作業: 看着NameNode的日誌,我注意到一個異常被定期提高。它可能是相關的嗎? 2013-04-10 19:23:50,613 WARN org.apache.hadoop.security.ShellBasedUnixGroupsMapping (IPC Server handler 43 on 9000): got exception trying to ge

    2熱度

    1回答

    我一直在嘗試使用Amazon EMR上的Pig運行一項非常簡單的任務。當我在交互式shell中運行命令時,一切正常。但是,當我跑同樣的事情,批作業,我得到 [主]錯誤org.apache.pig.tools.grunt.Grunt - 錯誤2017年:內部 錯誤創建工作配置。 並且運行腳本失敗。 這是我的7行腳本。它只是計算谷歌bigrams元組的平均值。 mc是匹配計數,vc是音量計數。 big

    2熱度

    2回答

    我正在使用Pig中的一些數據,其中包含感興趣的字符串,可以用分號和隨機順序(例如, test=12345;foo=bar test=12345 foo=bar;test=12345 下面的代碼應提取的字符串測試「關鍵」的價值: blah = FOREACH data GENERATE FLATTEN ( EXTRACT ( str

    1熱度

    2回答

    我是AWS和Hive的新手,我試圖使用Hive來分析Google Ngrams數據。我試圖在S3存儲桶中將製表保存爲製表符分隔的CSV,但現在我不知道如何查看它或下載它以查看我的作業是否正確執行。 我用來創建該表的查詢是 CREATE EXTERNAL TABLE test_table2 ( gram string, year int, occurrences bigint, pages b

    0熱度

    1回答

    我想使用EMR將文本文件的內容分割成2個不同的文件。 輸入文件以及mapper和reducer腳本都存儲在AWS'S3中。 目前,我的映射器通過製表符分隔整個文件中的每個字段來重新格式化stdin的輸入。 import sys import time first_line = True for line in sys.stdin: if first_line == True:

    1熱度

    1回答

    我想使用AWS EMR對輸入文件進行分區。 我使用流式步驟從標準輸入讀取。 我想根據stdin的每一行中的特定字段的值將此文件拆分爲2個文件,並將結果輸出存儲到S3中以供稍後使用。 我找不到任何有關如何使用python實現這一目標的文檔。 你能指出我正確的方向嗎? 我將不勝感激。 謝謝

    3熱度

    1回答

    我有一個S3存儲桶,其中包含要連接的日誌文件,然後用作EMR作業的輸入。日誌文件的路徑如下:bucket-name/[date]/product/out/[hour]/[minute-based-file]。我想在所有日期目錄中的所有小時目錄中記錄所有分鐘日誌,並將它們連接成一個文件。我想將該文件用作EMR作業的輸入。原始日誌文件需要保留,新的組合日誌文件可能會寫入不同的S3存儲桶。 我試圖通過S

    1熱度

    1回答

    我正在運行MapReduce作業。我的代碼只包含一個簡單計算的類。它成功地運行在hadoop1.0.3 的單個節點設置當我在EMR運行它,我得到以下錯誤 java.io.IOException: File already exists: s3n://<bucketname>/output/part-r-00002 at org.apache.hadoop.fs.s3native.NativeS3

    1熱度

    1回答

    我的日誌看起來像s3中的名稱中帶有時間戳。我想使用s3distcp將數據導入EMR,以便使用配置單元。 https://s3.amazonaws.com/mybucket/test/201305031003_0_ubuntu.gz https://s3.amazonaws.com/mybucket/test/201305031004_0_ubuntu.gz https://s3.amazona