emr

0熱度

1回答

我遇到一個奇怪的問題，我向你保證我的搜索引擎很多。我正在運行一組AWS Elastic MapReduce集羣，並且我有一個包含大約16個分區的Hive表。它們是由emr-s3distcp創建的（因爲原始s3存儲桶中有大約216K個文件），使用--groupBy並將限制設置爲64MiB（在這種情況下爲DFS塊大小），它們僅僅是文本文件每行使用JSON SerDe的json對象。當我運行這個腳本

4熱度

1回答

如何減少Apache Hive中輸出文件的數量

有誰知道一個工具可以將Apache Hadoop的輸出文件「收縮」爲更少的文件或一個文件。目前我正在將所有文件下載到本地計算機，並將它們連接在一個文件中。所以沒有人知道一個API或一個相同的工具。在此先感謝。

1熱度

1回答

S3從S3加載AWS EMR

當使用S3存儲桶作爲輸入源創建新的EMR作業時，數據是否會自動從S3複製到節點上的HDFS中？還是數據保留在S3中，並在地圖縮減作業需要時進行閱讀？我得到了後者的印象;但是如果數據存儲在S3中並且在預配置的EC2實例上完成了處理，這是否違背了map reduce的基本原則：是否對數據進行本地處理？與更傳統的系統相反：將數據移動到處理所在的位置。給定一個合理的大數據集，例如1PB例如，這種方法的

0熱度

1回答

豬AWS EMR Jython的序列化錯誤

我想運行一個簡單的Python UDF豬亞馬遜EMR並拋出Java序列化錯誤： java.io.IOException: Deserialization error: could not instantiate 'org.apache.pig.scripting.jython.JythonFunction' with arguments '[/tmp/pig4877832484731242596t

2熱度

1回答

運行Nutch抓取EMR（新手）

我是第一次使用EMR/Hadoop用戶並首次使用Apache Nutch用戶。我試圖使用Apache Nutch 2.1來做一些屏幕抓取。我想在hadoop上運行它，但不想設置自己的羣集（一次一個學習曲線）。所以我使用EMR。我想S3用於輸出（以及任何我需要的輸入）。我一直在讀維基設置爲Nutch的： http://wiki.apache.org/nutch/NutchTutorial http

1熱度

1回答

Elastic MapReduce（EMR）的縮放比例？

我正在評估運行~20節點Hadoop集羣的EC2/EMR。（custom JAR集羣）。我在單節點3.3 GHz 2GB RAM本地VMWare實例上運行簡單的WordCount示例，只需不到10秒即可完成。 WordCount示例需要3分鐘才能在EMR上完成，其中2個c1.mediumm實例（不包括啓動時間3-5分鐘）。同時爲2個m1.small實例。在EMR上運行工作會有一些開銷，也許這個問

1熱度

2回答

jar包含org.apache.hadoop.hive.dynamodb

我試圖以編程方式加載一個dynamodb表格到HDFS（通過java和不是配置單元），我不能找到如何做到這一點在線例子，所以認爲我下載包含org.apache.hadoop.hive.dynamodb的jar並反向設計進程。不幸的是，我無法找到該文件，以及:(。有人能爲我解答以下問題（按優先順序排列）。加載一個dynamodb Java示例表到HDFS（可傳遞給映射器作爲表輸入格式）。含org

1熱度

1回答

的Hadoop/EMR如何存儲鍵值對

我運行了一系列的EMR MapReduce工作。然而，第三MapReduce作業需要從第二MapReduce作業輸出的數據，並輸出基本上是超過一百萬的鍵值對（包括鍵和值小於1KB較少）。有沒有一種很好的方式將這些信息存儲在與EMR相同的機器上的分佈式存儲中，以便隨後的作業可以訪問這些信息？我看着DistributedCache，但它更多的是存儲文件？我不確定Hadoop是否針對存儲一百萬個小文件進

0熱度

1回答

使用EMR加入數據集

我有2個存儲在AWS S3中的製表符分隔的數據集。我正在嘗試編寫一個EMR作業，它將基於一個公用密鑰（一組字段值）連接這兩個數據集。我目前的版本填充2個列表並逐行比較它們;輸出具有公共密鑰的行。我一直在Python中編寫，但似乎無法找出通過stdin帶來2個文件背後的邏輯，並將每個行與另一個進行比較，以便加入這兩個數據集。我發現的大部分文檔都是用Java編寫的。我正在使用亞馬遜的EMR來

2熱度

3回答

如何將EMR流作業的輸出寫入HDFS？

我看到examples的人寫EMR輸出到HDFS，但我一直沒能找到它如何完成的例子。最重要的是，this documentation似乎表示，EMR流作業的--output參數必須是是S3存儲桶。當我真的嘗試運行一個腳本（在這種情況下，使用python streaming和mrJob）時，它會拋出一個「Invalid S3 URI」錯誤。這裏的命令： python my_script.py -