emr

    2熱度

    1回答

    我將DynamoDB表導出爲s3作爲備份(通過EMR)。當我導出時,我將數據存儲爲lzo壓縮文件。我的配置單元查詢在下面,但基本上我遵循了「使用數據壓縮將Amazon DynamoDB表導出到Amazon S3存儲桶」http://docs.amazonwebservices.com/amazondynamodb/latest/developerguide/EMR_Hive_Commands.ht

    2熱度

    1回答

    我在EMR上運行了一個羣集作業。 數據集很大。一切運行良好,直到: 2012-09-29 10:50:58,063 INFO org.apache.hadoop.mapred.JobClient (main): map 100% reduce 23% 2012-09-29 10:51:31,157 INFO org.apache.hadoop.mapred.JobClient (main): m

    0熱度

    1回答

    我有一個直覺,增加/減少 交互式運行作業的節點數量可以加快地圖重型 作業,但不會幫助減少重工作,其中大部分工作通過減少完成 。 有關於這個的常見問題,但它並沒有真正很好地解釋 http://aws.amazon.com/elasticmapreduce/faqs/#cluster-18

    0熱度

    1回答

    我有幾個在EMR上運行的hadoop作業。其中一些作業需要處理日誌文件。日誌文件大小爲〜3GB,格式爲.gz。日誌存儲在S3上。 目前,我使用m1.xlarge進行處理,僅需將日誌文件從S3複製到HDFS需要3小時。在這裏,瓶頸是從S3讀取還是寫入HDFS? 我的計劃是使用基於hi1.4xlarge的新SSD,因爲它具有快速I/O,而不是m1.xlarge。但是它有助於降低成本嗎? 但hi1.4x

    3熱度

    2回答

    我有一個工作在32個實例上使用Hadoop 0.20運行。它已運行了9個小時,沒有錯誤。在那段時間裏它已經處理了3800個任務,但我注意到只有兩個任務似乎卡住了,並且一直運行了幾個小時(顯​​然是因爲他們沒有超時而響應)。任務通常不會超過15分鐘。我不想失去已經完成的所有工作,因爲這花費了我很多錢。我真的只想殺這兩個任務,讓Hadoop重新分配它們,或者只是把它們算作失敗。直到他們停下來,我無法從

    0熱度

    2回答

    我在Amazon的Elastic MapReduce中使用Hive創建了一個表,將數據導入並對其進行分區。現在我運行一個查詢來計算表格字段中最常見的單詞。 我運行那個查詢時,我有1個主和2個核心實例,它需要180秒計算。然後我重新配置它有1個主控和10個內核,同樣需要180秒。爲什麼不更快? 我在2個內核和10個內核上運行時幾乎相同的輸出: Total MapReduce jobs = 2 La

    3熱度

    2回答

    我想創建一個PHP頁面發起集羣,並添加作業到jobflow。 $response = $emr->run_job_flow($nameOfRun, array( 'Ec2KeyName' => 'hadoop', 'HadoopVersion' => '0.20', 'KeepJobFlowAliveWhenNoSteps' => $clusterAlive,

    1熱度

    1回答

    我已成功完成Amazon EMR上的mahout矢量化作業(使用Mahout on Elastic MapReduce作爲參考)。現在我想將HDFS的結果複製到S3中(在將來的集羣中使用它)。 For that I've used hadoop distcp: [email protected]:~$ elastic-mapreduce --jar s3://elasticmapreduce/

    0熱度

    1回答

    當importing from S3 to DynamoDB時,這是否會計入提供的寫入吞吐量? 我有一個服務只能讀取,除了從S3中的多GB文件批量更新。我們不希望支付所有月份的預配置寫入數量,並且考慮到AWS政策只允許預設速率一次翻倍,從0寫入到幾百萬的數據量可能需要一段時間。

    1熱度

    1回答

    我做我得到antjar任務把依賴罐放在目錄./lib罐子裏面嗎?目前,ant將這些放入./。 <target name="jar" depends="compile" description="generate the distribution"> <jar jarfile="${dist.dir}/projectx-${version}.jar" basedir="${build.di