emr

23熱度

3回答

如何將文件從S3複製到Amazon EMR HDFS？

我跑了蜂巢EMR，01，需要一些文件複製到所有EMR實例。我的理解就是將文件複製到本地文件系統中的其他每個節點上的一種方法是將文件複製到HDFS，但是我還沒有找到一個簡單的方法來從S3複製到挺直HDFS。什麼是最好的方式去做這件事？

3熱度

1回答

支持Amazon EMR上的Hadoop 1.0.1作業

我開發了一些使用java和hadoop 1.0.1的MR作業。但是，EMR僅支持Hadoop 0.20。是否有可能在EMR上運行Hadoop 1.0.1作業，還是必須降級我的庫堆棧以符合EMR hadoop版本？

4熱度

1回答

hadoop streaming：在EMR上導入模塊

This previous question addressed如何導入nltk等hadoop串流模塊。列出的步驟是： zip -r nltkandyaml.zip nltk yaml mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod 現在，您可以導入使用的NLTK模塊在你的Python腳本：進口的

18熱度

3回答

出口蜂巢表的S3存儲

我通過彈性MapReduce互動對話期間建立的蜂巢表，並從CSV填充它的文件是這樣的： CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD DATA LOCAL INPATH '/home/hadoop/file.csv

0熱度

1回答

AWS Elastic Map Reduce Hive運行v0.5？缺少的功能：「str_to_map」，「反映」

在亞馬遜AWS的Elastic地圖降低實施蜂巢中，UDF的str_to_map和reflect沒有定義。 str_to_map記錄在這裏：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-StringFunctions ，並與蜂巢0.7發佈：https://issues.apa

2熱度

3回答

電子病歷互通/客戶端

因此，我正在研究爲現有EMR構建客戶端界面的方法。我已經閱讀了大量有關HL7的信息，以及各種編碼方案，但我仍然無能爲力。對於任何其之前與EMR工作：是否有可能建立一個可以使用HTTP-POST和網絡接口HTTP-GET請求來推/拉數據到服務器數據庫？或者你會爲客戶提供一個單獨的數據庫，例如一個Web應用程序，然後使用像Mirth這樣的接口引擎在EMR數據庫和Web應用程序之間進行通信？

1熱度

1回答

獲取運行一個Amazon EMR工作

我已經上傳我的數據 genotype1_large_ind_large.txt phenotype1_large_ind_large_1.txt 到S3系統時，「文件不存在」的錯誤，並在EMR UI，我喜歡設置參數下面 RunDear.run S3N：//scalability/genotype1_large_ind_large.txt S3N：//scalability/phenotype1_l

3熱度

2回答

在彈性MapReduce上的Mahout：Java堆空間

我在Amazon Elastic MapReduce集羣上從命令行運行Mahout 0.6，嘗試使用canopy-cluster〜1500短文檔，並且作業保持失敗，出現「Error：Java heap space 「信息。基於這裏和其他地方前面的問題，我已經拍成每個內存旋鈕可以找我：的conf/hadoop-env.sh：將所有的堆空間有高達1.5GB的小型實例，甚至4GB的大型實例。的c

0熱度

2回答

EMR使用映射器和縮減器的Java代碼進行流式處理作業

我目前使用用ruby編寫的mapper和reducer代碼運行流式作業。我想將它們轉換爲java。我不知道如何使用java運行EMR hadoop的流式作業。在Amazon的EMR網站上發佈的cloudburst樣本太複雜了。以下是我目前如何運行這些工作的詳細信息。代碼開始作業： elastic-mapreduce --create --alive --plain-output --maste