emr

0熱度

1回答

我的cascalog EMR作業在S3存儲桶上生成了數千個小文件。它生成的文件數量與我使用的減速器數量相同。傾銷所有這些小文件需要幾分鐘。我想知道是否有方法在S3上連接它們以便我可以快速轉儲它們？感謝康

1熱度

1回答

編輯運行EMR的Hadoop流作業：看着NameNode的日誌，我注意到一個異常被定期提高。它可能是相關的嗎？ 2013-04-10 19:23:50,613 WARN org.apache.hadoop.security.ShellBasedUnixGroupsMapping (IPC Server handler 43 on 9000): got exception trying to ge

2熱度

1回答

無法解決2017年的錯誤：在運行PIG時在EMR上創建作業配置時出現內部錯誤

我一直在嘗試使用Amazon EMR上的Pig運行一項非常簡單的任務。當我在交互式shell中運行命令時，一切正常。但是，當我跑同樣的事情，批作業，我得到 [主]錯誤org.apache.pig.tools.grunt.Grunt - 錯誤2017年：內部錯誤創建工作配置。並且運行腳本失敗。這是我的7行腳本。它只是計算谷歌bigrams元組的平均值。 mc是匹配計數，vc是音量計數。 big

2熱度

2回答

EMR上的豬：如何在EXTRACT函數的正則表達式中包含分號

我正在使用Pig中的一些數據，其中包含感興趣的字符串，可以用分號和隨機順序（例如， test=12345;foo=bar test=12345 foo=bar;test=12345 下面的代碼應提取的字符串測試「關鍵」的價值： blah = FOREACH data GENERATE FLATTEN ( EXTRACT ( str

1熱度

2回答

無法下載或閱讀Amazon S3存儲桶中的Hive輸出

我是AWS和Hive的新手，我試圖使用Hive來分析Google Ngrams數據。我試圖在S3存儲桶中將製表保存爲製表符分隔的CSV，但現在我不知道如何查看它或下載它以查看我的作業是否正確執行。我用來創建該表的查詢是 CREATE EXTERNAL TABLE test_table2 ( gram string, year int, occurrences bigint, pages b

0熱度

1回答

使用Map Reduce分割文件

我想使用EMR將文本文件的內容分割成2個不同的文件。輸入文件以及mapper和reducer腳本都存儲在AWS'S3中。目前，我的映射器通過製表符分隔整個文件中的每個字段來重新格式化stdin的輸入。 import sys import time first_line = True for line in sys.stdin: if first_line == True:

1熱度

1回答

地圖減少python boto中的多個輸出

我想使用AWS EMR對輸入文件進行分區。我使用流式步驟從標準輸入讀取。我想根據stdin的每一行中的特定字段的值將此文件拆分爲2個文件，並將結果輸出存儲到S3中以供稍後使用。我找不到任何有關如何使用python實現這一目標的文檔。你能指出我正確的方向嗎？我將不勝感激。謝謝

3熱度

1回答

連接S3文件以在EMR中讀取

我有一個S3存儲桶，其中包含要連接的日誌文件，然後用作EMR作業的輸入。日誌文件的路徑如下：bucket-name/[date]/product/out/[hour]/[minute-based-file]。我想在所有日期目錄中的所有小時目錄中記錄所有分鐘日誌，並將它們連接成一個文件。我想將該文件用作EMR作業的輸入。原始日誌文件需要保留，新的組合日誌文件可能會寫入不同的S3存儲桶。我試圖通過S

1熱度

1回答

Amazon EMR：java.io.IOException：文件已存在：s3n：// <bucketname>/output/part-r-00002

我正在運行MapReduce作業。我的代碼只包含一個簡單計算的類。它成功地運行在hadoop1.0.3 的單個節點設置當我在EMR運行它，我得到以下錯誤 java.io.IOException: File already exists: s3n://<bucketname>/output/part-r-00002 at org.apache.hadoop.fs.s3native.NativeS3

1熱度

1回答

如何使用s3distcp選擇日期範圍？

我的日誌看起來像s3中的名稱中帶有時間戳。我想使用s3distcp將數據導入EMR，以便使用配置單元。 https://s3.amazonaws.com/mybucket/test/201305031003_0_ubuntu.gz https://s3.amazonaws.com/mybucket/test/201305031004_0_ubuntu.gz https://s3.amazona