amazon-emr

1熱度

4回答

使用s3作爲fs.default.name或HDFS？

我正在EC2上建立一個Hadoop集羣，我想知道如何做DFS。我所有的數據都在s3中，所有的map/reduce應用程序都使用s3文件路徑來訪問數據。現在我一直在研究如何設置Amazons EMR，並且似乎對於每個作業流程，都會設置namenode和datanode。現在我想知道我是否真的需要這樣做，或者如果我可以使用s3（n）作爲DFS？如果這樣做，是否有任何缺點？謝謝！

3熱度

1回答

Hadoop流最大線路長度

我正在研究Amazon Elastic Map Reduce的Hadoop流式工作流程，它涉及序列化一些二進制對象並將它們流式傳輸到Hadoop中。 Hadoop的流媒體輸入是否有最大線路長度？我開始只是測試更大更大的線條，但我想先問一下。

1熱度

1回答

如何在Amazon Elastic Mapreduce之上使用Hive來處理Amazon Simple DB中的數據？

我有很多亞馬遜簡單數據庫域中的數據。我想在Elastic Map Reduce（在hadoop之上）啓動Hive，並以某種方式從simpledb導入數據，或者連接到simpledb並在其上運行hiveql查詢。我有導入數據的問題。任何指針？

2熱度

3回答

我的boto彈性mapreduce jar jobflow參數有什麼問題？

我正在使用boto庫在亞馬遜彈性MapReduce Webservice（EMR）中創建作業流程。下面的代碼應該創建一個步驟： step2 = JarStep(name='Find similiar items', jar='s3n://recommendertest/mahout-core/mahout-core-0.5-SNAPSHOT.jar', main_cla

2熱度

1回答

將Elastic MapReduce中的壓縮文件上傳到S3

我想從EMR本地文件系統上傳一個目錄到s3作爲壓縮文件。有沒有比我目前使用的方法更好的方法來解決這個問題？是否可以將ZipOutputStream作爲Reducer輸出返回？感謝 zipFolderAndUpload("target", "target.zip", "s3n://bucketpath/"); static public void zipFolderAndUpload(S

1熱度

1回答

Hadoop流式傳輸和AMAZON EMR

我一直在嘗試在Amazon EMR中使用Hadoop流媒體來爲一堆文本文件做簡單的字數統計。爲了處理hadoop流媒體和亞馬遜的EMR，我採用了一個非常簡化的數據集。每個文本文件只有一行文本（該行可能包含任意數量的文字）。映射器是一個R腳本，它將行拆分爲單詞並將其吐出到流中。 cat(wordList[i],"\t1\n") 我決定用LongValueSum總結減速機加計數在一起，所以我不得不L

2熱度

1回答

在Hadoop MapReduce腳本中導入外部庫

我在Amazons EMR Hadoop實現之上運行python MapReduce腳本。由於主要腳本的結果，我獲得了項目項目的相似性。在後續步驟中，我想將此輸出分割爲每個項目的單獨S3存儲區，因此每個項目存儲區都包含與其類似的項目列表。爲了達到這個目的，我想在後續步驟的reduce函數中使用Amazons boto python庫。如何將外部（python）庫導入到hadoop中，以便它們可以