emr

2熱度

1回答

我將DynamoDB表導出爲s3作爲備份（通過EMR）。當我導出時，我將數據存儲爲lzo壓縮文件。我的配置單元查詢在下面，但基本上我遵循了「使用數據壓縮將Amazon DynamoDB表導出到Amazon S3存儲桶」http://docs.amazonwebservices.com/amazondynamodb/latest/developerguide/EMR_Hive_Commands.ht

2熱度

1回答

EMR上的Mahout錯誤：Java堆空間

我在EMR上運行了一個羣集作業。數據集很大。一切運行良好，直到： 2012-09-29 10:50:58,063 INFO org.apache.hadoop.mapred.JobClient (main): map 100% reduce 23% 2012-09-29 10:51:31,157 INFO org.apache.hadoop.mapred.JobClient (main): m

0熱度

1回答

何時在hadoop mapreduce作業上增加/減少交互節點數是個好主意？

我有一個直覺，增加/減少交互式運行作業的節點數量可以加快地圖重型作業，但不會幫助減少重工作，其中大部分工作通過減少完成。有關於這個的常見問題，但它並沒有真正很好地解釋 http://aws.amazon.com/elasticmapreduce/faqs/#cluster-18

0熱度

1回答

hi1.4xlarge用於EMR的SSD EC2實例

我有幾個在EMR上運行的hadoop作業。其中一些作業需要處理日誌文件。日誌文件大小爲〜3GB，格式爲.gz。日誌存儲在S3上。目前，我使用m1.xlarge進行處理，僅需將日誌文件從S3複製到HDFS需要3小時。在這裏，瓶頸是從S3讀取還是寫入HDFS？我的計劃是使用基於hi1.4xlarge的新SSD，因爲它具有快速I/O，而不是m1.xlarge。但是它有助於降低成本嗎？但hi1.4x

3熱度

2回答

如何在Amazon EMR上終止正在運行的映射任務？

我有一個工作在32個實例上使用Hadoop 0.20運行。它已運行了9個小時，沒有錯誤。在那段時間裏它已經處理了3800個任務，但我注意到只有兩個任務似乎卡住了，並且一直運行了幾個小時（顯然是因爲他們沒有超時而響應）。任務通常不會超過15分鐘。我不想失去已經完成的所有工作，因爲這花費了我很多錢。我真的只想殺這兩個任務，讓Hadoop重新分配它們，或者只是把它們算作失敗。直到他們停下來，我無法從

0熱度

2回答

爲什麼增加實例數並不會增加Hive查詢速度

我在Amazon的Elastic MapReduce中使用Hive創建了一個表，將數據導入並對其進行分區。現在我運行一個查詢來計算表格字段中最常見的單詞。我運行那個查詢時，我有1個主和2個核心實例，它需要180秒計算。然後我重新配置它有1個主控和10個內核，同樣需要180秒。爲什麼不更快？我在2個內核和10個內核上運行時幾乎相同的輸出： Total MapReduce jobs = 2 La

3熱度

2回答

亞馬遜AWS PHP SDK - 集羣啓動失敗-The給SSH密鑰名無效

我想創建一個PHP頁面發起集羣，並添加作業到jobflow。 $response = $emr->run_job_flow($nameOfRun, array( 'Ec2KeyName' => 'hadoop', 'HadoopVersion' => '0.20', 'KeepJobFlowAliveWhenNoSteps' => $clusterAlive,

1熱度

1回答

將hadoop從hdfs複製到S3

我已成功完成Amazon EMR上的mahout矢量化作業（使用Mahout on Elastic MapReduce作爲參考）。現在我想將HDFS的結果複製到S3中（在將來的集羣中使用它）。 For that I've used hadoop distcp: [email protected]:~$ elastic-mapreduce --jar s3://elasticmapreduce/

0熱度

1回答

DynamoDB S3 Imports

當importing from S3 to DynamoDB時，這是否會計入提供的寫入吞吐量？我有一個服務只能讀取，除了從S3中的多GB文件批量更新。我們不希望支付所有月份的預配置寫入數量，並且考慮到AWS政策只允許預設速率一次翻倍，從0寫入到幾百萬的數據量可能需要一段時間。

1熱度

1回答

獲取螞蟻把依賴罐放在./lib

我做我得到antjar任務把依賴罐放在目錄./lib罐子裏面嗎？目前，ant將這些放入./。 <target name="jar" depends="compile" description="generate the distribution"> <jar jarfile="${dist.dir}/projectx-${version}.jar" basedir="${build.di