我在Amazon的Elastic MapReduce中使用Hive創建了一個表,將數據導入並對其進行分區。現在我運行一個查詢來計算表格字段中最常見的單詞。 我運行那個查詢時,我有1個主和2個核心實例,它需要180秒計算。然後我重新配置它有1個主控和10個內核,同樣需要180秒。爲什麼不更快? 我在2個內核和10個內核上運行時幾乎相同的輸出: Total MapReduce jobs = 2
La
我已成功完成Amazon EMR上的mahout矢量化作業(使用Mahout on Elastic MapReduce作爲參考)。現在我想將HDFS的結果複製到S3中(在將來的集羣中使用它)。 For that I've used hadoop distcp:
[email protected]:~$ elastic-mapreduce --jar s3://elasticmapreduce/