elastic-map-reduce

    1熱度

    1回答

    MapReduce任務的等於1的號碼,我試圖按照hive- set hive.exec.reducers.max = 1; set mapred.reduce.tasks = 1; from flat_json insert overwrite table aggr_pgm_measure PARTITION(dt='${START_TIME}') reduce log_time, r

    0熱度

    1回答

    Karmasphere Analyst分析器建議我設置一些jobconf參數,例如mapred.map.output.compression.codec = org.apache.hadoop.io.compress.LzoCodec 。但是我不知道在哪裏設置這些,我無法在Karmasphere Analyst文檔中找到它。 我試着在Access-> Configuration-> Extra S

    1熱度

    2回答

    我想知道Hadoop不僅僅是一個黑匣子。我想探索Hadoop代碼本身。我怎樣才能從trunk下載捆綁包,我應該從哪裏開始?任何幫助將是真正有幫助 謝謝 Shujaat

    4熱度

    1回答

    由於數據類型錯誤,我無法合計一包值。 當我打開它的線條看起來像這樣的csv文件: 6 574 false 10.1.72.23 2010-05-16 13:56:19 +0930 fbcdn.net static.ak.fbcdn.net 304 text/css 1 /rsrc.php/zPTJC/hash/50l7x7eg.css http pwong 使用下列內容: logs_base

    2熱度

    1回答

    我很喜歡使用Sqoop,但不認爲值得在這裏使用ElasticMapReduce(我真的很喜歡)運行Cloudera stack @ AWS。 我目前的想法只是將我需要的數據寫入到位於@ S3的外部表中,然後編寫腳本將其導入到mysql中。亞馬遜有SimpleDB的一些東西(example),但我不確定那條路線嗎?對S3中的數據感到滿意,只是想知道是否有人有更好的主意。 謝謝!

    0熱度

    2回答

    我正在嘗試使用Karmaspere Analytics和AWS。 This頁面聲稱使用 - 支持的產品與紅寶石客戶端。但是,當我運行該命令(完全按照該頁面輸入)時,出現錯誤「Error:invalid option:--supported-products」 我正在使用2010-11-11版,從http://aws.amazon.com/developertools/2264(該頁面說它最後更新於

    -1熱度

    3回答

    比方說,我有兩個相當大的數據集 - 第一個叫做「Base」,它包含2億個製表符分隔的行,第二個調用「MatchSet」,它有1000萬個標籤分隔的相似數據行。讓我們假設我也有一個稱爲Match(row1,row2)的任意函數,Match()基本上包含了一些針對row1(來自MatchSet)的啓發式算法,並將它與row2(來自Base)進行比較,並確定它們是否是在某些方面類似。 比方說,在Matc

    4熱度

    1回答

    我在嘗試使用hadoop streaming解析來自commoncrawl.org的數據。我設置了一個本地hadoop來測試我的代碼,並且有一個簡單的Ruby映射器,它使用流ARCfile文件讀取器。當我自己調用我的代碼就像 cat 1262876244253_18.arc.gz | mapper.rb | reducer.rb 它將按預期工作。 看來,hadoop會自動發現該文件具有.gz擴

    2熱度

    1回答

    我想使用MRJob Python框架對來自S3存儲桶com.test.mybucket的數據運行Elastic Mapreduce。但是,我在S3中有很多其他數據,以及其他我不想觸及的EC2實例。 AWS用戶執行完整工作所需的最小可能訪問憑證集是什麼?

    1熱度

    1回答

    我是EMR的新手,剛剛有幾個問題,我一直在努力與過去幾天。第一個是我想要處理的日誌已經被壓縮爲.gz,我想知道如果這些類型的文件能夠被emr分割,那麼多於一個的映射器將在文件上工作。我也一直在閱讀輸入文件不會被拆分,除非他們是5GB,我的文件不是那麼大,這意味着他們只會被一個實例處理? 我的另一個問題可能看起來相對愚蠢,但是有可能使用emr + streaming,並且輸入s3以外的地方?從CDN