emr

    23熱度

    3回答

    我跑了蜂巢EMR,01​​,需要一些文件複製到所有EMR實例。我的理解就是將文件複製到本地文件系統中的其他每個節點上 的一種方法是將文件複製到HDFS,但是我還沒有找到一個簡單的方法來從S3複製到挺直HDFS。 什麼是最好的方式去做這件事?

    3熱度

    1回答

    我開發了一些使用java和hadoop 1.0.1的MR作業。但是,EMR僅支持Hadoop 0.20。是否有可能在EMR上運行Hadoop 1.0.1作業,還是必須降級我的庫堆棧以符合EMR hadoop版本?

    4熱度

    1回答

    This previous question addressed如何導入nltk等hadoop串流模塊。 列出的步驟是: zip -r nltkandyaml.zip nltk yaml mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod 現在,您可以導入使用的NLTK模塊在你的Python腳本: 進口的

    18熱度

    3回答

    我通過彈性MapReduce互動對話期間建立的蜂巢表,並從CSV填充它的文件是這樣的: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD DATA LOCAL INPATH '/home/hadoop/file.csv

    0熱度

    1回答

    在亞馬遜AWS的Elastic地圖降低實施蜂巢中,UDF的str_to_map和reflect沒有定義。 str_to_map記錄在這裏:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-StringFunctions ,並與蜂巢0.7發佈:https://issues.apa

    2熱度

    3回答

    因此,我正在研究爲現有EMR構建客戶端界面的方法。我已經閱讀了大量有關HL7的信息,以及各種編碼方案,但我仍然無能爲力。 對於任何其之前與EMR工作:是否有可能建立一個可以使用HTTP-POST和網絡接口HTTP-GET請求來推/拉數據到服務器數據庫?或者你會爲客戶提供一個單獨的數據庫,例如一個Web應用程序,然後使用像Mirth這樣的接口引擎在EMR數據庫和Web應用程序之間進行通信?

    1熱度

    1回答

    我已經上傳我的數據 genotype1_large_ind_large.txt phenotype1_large_ind_large_1.txt 到S3系統時,「文件不存在」的錯誤,並在EMR UI,我喜歡設置參數下面 RunDear.run S3N://scalability/genotype1_large_ind_large.txt S3N://scalability/phenotype1_l

    3熱度

    2回答

    我在Amazon Elastic MapReduce集羣上從命令行運行Mahout 0.6,嘗試使用canopy-cluster〜1500短文檔,並且作業保持失敗,出現「Error:Java heap space 「 信息。 基於這裏和其他地方前面的問題,我已經拍成每個內存旋鈕可以找我: 的conf/hadoop-env.sh:將所有的堆空間有高達1.5GB的小型實例,甚至4GB的大型實例。 的c

    0熱度

    2回答

    我目前使用用ruby編寫的mapper和reducer代碼運行流式作業。我想將它們轉換爲java。我不知道如何使用java運行EMR hadoop的流式作業。在Amazon的EMR網站上發佈的cloudburst樣本太複雜了。以下是我目前如何運行這些工作的詳細信息。 代碼開始作業: elastic-mapreduce --create --alive --plain-output --maste