elastic-map-reduce

1熱度

1回答

MapReduce任務的等於1的號碼，我試圖按照hive- set hive.exec.reducers.max = 1; set mapred.reduce.tasks = 1; from flat_json insert overwrite table aggr_pgm_measure PARTITION(dt='${START_TIME}') reduce log_time, r

0熱度

1回答

使用Karmasphere分析師和Amazon Elastic MapReduce設置jobconf參數

Karmasphere Analyst分析器建議我設置一些jobconf參數，例如mapred.map.output.compression.codec = org.apache.hadoop.io.compress.LzoCodec 。但是我不知道在哪裏設置這些，我無法在Karmasphere Analyst文檔中找到它。我試着在Access-> Configuration-> Extra S

1熱度

2回答

探索Hadoop代碼

我想知道Hadoop不僅僅是一個黑匣子。我想探索Hadoop代碼本身。我怎樣才能從trunk下載捆綁包，我應該從哪裏開始？任何幫助將是真正有幫助謝謝 Shujaat

4熱度

1回答

如何才能正確執行Apache Pig上的數據類型？

由於數據類型錯誤，我無法合計一包值。當我打開它的線條看起來像這樣的csv文件： 6 574 false 10.1.72.23 2010-05-16 13:56:19 +0930 fbcdn.net static.ak.fbcdn.net 304 text/css 1 /rsrc.php/zPTJC/hash/50l7x7eg.css http pwong 使用下列內容： logs_base

2熱度

1回答

將數據從配置單元中取出並存入mysql @ AWS？

我很喜歡使用Sqoop，但不認爲值得在這裏使用ElasticMapReduce（我真的很喜歡）運行Cloudera stack @ AWS。我目前的想法只是將我需要的數據寫入到位於@ S3的外部表中，然後編寫腳本將其導入到mysql中。亞馬遜有SimpleDB的一些東西（example），但我不確定那條路線嗎？對S3中的數據感到滿意，只是想知道是否有人有更好的主意。謝謝！

0熱度

2回答

無法獲取--supported-products選項與Amazon的彈性地圖降低的Ruby客戶端一起使用Karmasphere Analytics

我正在嘗試使用Karmaspere Analytics和AWS。 This頁面聲稱使用 - 支持的產品與紅寶石客戶端。但是，當我運行該命令（完全按照該頁面輸入）時，出現錯誤「Error：invalid option：--supported-products」我正在使用2010-11-11版，從http://aws.amazon.com/developertools/2264（該頁面說它最後更新於

-1熱度

3回答

使用MapReduce編程模型比較兩個大型數據集

比方說，我有兩個相當大的數據集 - 第一個叫做「Base」，它包含2億個製表符分隔的行，第二個調用「MatchSet」，它有1000萬個標籤分隔的相似數據行。讓我們假設我也有一個稱爲Match（row1，row2）的任意函數，Match（）基本上包含了一些針對row1（來自MatchSet）的啓發式算法，並將它與row2（來自Base）進行比較，並確定它們是否是在某些方面類似。比方說，在Matc

4熱度

1回答

hadoop將\ r \ n轉換爲\ n並打破ARC格式

我在嘗試使用hadoop streaming解析來自commoncrawl.org的數據。我設置了一個本地hadoop來測試我的代碼，並且有一個簡單的Ruby映射器，它使用流ARCfile文件讀取器。當我自己調用我的代碼就像 cat 1262876244253_18.arc.gz | mapper.rb | reducer.rb 它將按預期工作。看來，hadoop會自動發現該文件具有.gz擴

2熱度

1回答

運行EMR作業的最低AWS策略要求

我想使用MRJob Python框架對來自S3存儲桶com.test.mybucket的數據運行Elastic Mapreduce。但是，我在S3中有很多其他數據，以及其他我不想觸及的EC2實例。 AWS用戶執行完整工作所需的最小可能訪問憑證集是什麼？

1熱度

1回答

亞馬遜MapReduce輸入分割和下載

我是EMR的新手，剛剛有幾個問題，我一直在努力與過去幾天。第一個是我想要處理的日誌已經被壓縮爲.gz，我想知道如果這些類型的文件能夠被emr分割，那麼多於一個的映射器將在文件上工作。我也一直在閱讀輸入文件不會被拆分，除非他們是5GB，我的文件不是那麼大，這意味着他們只會被一個實例處理？我的另一個問題可能看起來相對愚蠢，但是有可能使用emr + streaming，並且輸入s3以外的地方？從CDN