emr

    0熱度

    1回答

    我遇到一個奇怪的問題,我向你保證我的搜索引擎很多。 我正在運行一組AWS Elastic MapReduce集羣,並且我有一個包含大約16個分區的Hive表。它們是由emr-s3distcp創建的(因爲原始s3存儲桶中有大約216K個文件),使用--groupBy並將限制設置爲64MiB(在這種情況下爲DFS塊大小),它們僅僅是文本文件每行使用JSON SerDe的json對象。 當我運行這個腳本

    4熱度

    1回答

    有誰知道一個工具可以將Apache Hadoop的輸出文件「收縮」爲更少的文件或一個文件。目前我正在將所有文件下載到本地計算機,並將它們連接在一個文件中。所以沒有人知道一個API或一個相同的工具。 在此先感謝。

    1熱度

    1回答

    當使用S3存儲桶作爲輸入源創建新的EMR作業時,數據是否會自動從S3複製到節點上的HDFS中?還是數據保留在S3中,並在地圖縮減作業需要時進行閱讀? 我得到了後者的印象;但是如果數據存儲在S3中並且在預配置的EC2實例上完成了處理,這是否違背了map reduce的基本原則:是否對數據進行本地處理?與更傳統的系統相反:將數據移動到處理所在的位置。 給定一個合理的大數據集,例如1PB例如,這種方法的

    0熱度

    1回答

    我想運行一個簡單的Python UDF豬亞馬遜EMR並拋出Java序列化錯誤: java.io.IOException: Deserialization error: could not instantiate 'org.apache.pig.scripting.jython.JythonFunction' with arguments '[/tmp/pig4877832484731242596t

    2熱度

    1回答

    我是第一次使用EMR/Hadoop用戶並首次使用Apache Nutch用戶。我試圖使用Apache Nutch 2.1來做一些屏幕抓取。我想在hadoop上運行它,但不想設置自己的羣集(一次一個學習曲線)。所以我使用EMR。我想S3用於輸出(以及任何我需要的輸入)。 我一直在讀維基設置爲Nutch的: http://wiki.apache.org/nutch/NutchTutorial http

    1熱度

    1回答

    我正在評估運行~20節點Hadoop集羣的EC2/EMR。 (custom JAR集羣)。我在單節點3.3 GHz 2GB RAM本地VMWare實例上運行簡單的WordCount示例,只需不到10秒即可完成。 WordCount示例需要3分鐘才能在EMR上完成,其中2個c1.mediumm實例(不包括啓動時間3-5分鐘)。同時爲2個m1.small實例。在EMR上運行工作會有一些開銷,也許這個問

    1熱度

    2回答

    我試圖以編程方式加載一個dynamodb表格到HDFS(通過java和不是配置單元),我不能找到如何做到這一點在線例子,所以認爲我下載包含org.apache.hadoop.hive.dynamodb的jar並反向設計進程。 不幸的是,我無法找到該文件,以及:(。 有人能爲我解答以下問題(按優先順序排列)。加載一個dynamodb Java示例表到HDFS(可傳遞給映射器作爲表輸入格式)。含org

    1熱度

    1回答

    我運行了一系列的EMR MapReduce工作。然而,第三MapReduce作業需要從第二MapReduce作業輸出的數據,並輸出基本上是超過一百萬的鍵值對(包括鍵和值小於1KB較少)。有沒有一種很好的方式將這些信息存儲在與EMR相同的機器上的分佈式存儲中,以便隨後的作業可以訪問這些信息?我看着DistributedCache,但它更多的是存儲文件?我不確定Hadoop是否針對存儲一百萬個小文件進

    0熱度

    1回答

    我有2個存儲在AWS S3中的製表符分隔的數據集。 我正在嘗試編寫一個EMR作業,它將基於一個公用密鑰(一組字段值)連接這兩個數據集。 我目前的版本填充2個列表並逐行比較它們;輸出具有公共密鑰的行。 我一直在Python中編寫,但似乎無法找出通過stdin帶來2個文件背後的邏輯,並將每個行與另一個進行比較,以便加入這兩個數據集。 我發現的大部分文檔都是用Java編寫的。 我正在使用亞馬遜的EMR來

    2熱度

    3回答

    我看到examples的人寫EMR輸出到HDFS,但我一直沒能找到它如何完成的例子。最重要的是,this documentation似乎表示,EMR流作業的--output參數必須是是S3存儲桶。 當我真的嘗試運行一個腳本(在這種情況下,使用python streaming和mrJob)時,它會拋出一個「Invalid S3 URI」錯誤。 這裏的命令: python my_script.py -