amazon-emr

    1熱度

    4回答

    我正在EC2上建立一個Hadoop集羣,我想知道如何做DFS。我所有的數據都在s3中,所有的map/reduce應用程序都使用s3文件路徑來訪問數據。現在我一直在研究如何設置Amazons EMR,並且似乎對於每個作業流程,都會設置namenode和datanode。現在我想知道我是否真的需要這樣做,或者如果我可以使用s3(n)作爲DFS?如果這樣做,是否有任何缺點? 謝謝!

    3熱度

    1回答

    我正在研究Amazon Elastic Map Reduce的Hadoop流式工作流程,它涉及序列化一些二進制對象並將它們流式傳輸到Hadoop中。 Hadoop的流媒體輸入是否有最大線路長度? 我開始只是測試更大更大的線條,但我想先問一下。

    1熱度

    1回答

    我有很多亞馬遜簡單數據庫域中的數據。我想在Elastic Map Reduce(在hadoop之上)啓動Hive,並以某種方式從simpledb導入數據,或者連接到simpledb並在其上運行hiveql查詢。我有導入數據的問題。任何指針?

    2熱度

    3回答

    我正在使用boto庫在亞馬遜彈性MapReduce Webservice(EMR)中創建作業流程。下面的代碼應該創建一個步驟: step2 = JarStep(name='Find similiar items', jar='s3n://recommendertest/mahout-core/mahout-core-0.5-SNAPSHOT.jar', main_cla

    2熱度

    1回答

    我想從EMR本地文件系統上傳一個目錄到s3作爲壓縮文件。 有沒有比我目前使用的方法更好的方法來解決這個問題? 是否可以將ZipOutputStream作爲Reducer輸出返回? 感謝 zipFolderAndUpload("target", "target.zip", "s3n://bucketpath/"); static public void zipFolderAndUpload(S

    1熱度

    1回答

    我一直在嘗試在Amazon EMR中使用Hadoop流媒體來爲一堆文本文件做簡單的字數統計。爲了處理hadoop流媒體和亞馬遜的EMR,我採用了一個非常簡化的數據集。每個文本文件只有一行文本(該行可能包含任意數量的文字)。 映射器是一個R腳本,它將行拆分爲單詞並將其吐出到流中。 cat(wordList[i],"\t1\n") 我決定用LongValueSum總結減速機加計數在一起,所以我不得不L

    2熱度

    1回答

    我在Amazons EMR Hadoop實現之上運行python MapReduce腳本。由於主要腳本的結果,我獲得了項目項目的相似性。在後續步驟中,我想將此輸出分割爲每個項目的單獨S3存儲區,因此每個項目存儲區都包含與其類似的項目列表。爲了達到這個目的,我想在後續步驟的reduce函數中使用Amazons boto python庫。 如何將外部(python)庫導入到hadoop中,以便它們可以