elastic-map-reduce

    1熱度

    1回答

    說我在Amazon彈性地圖降低上啓動集羣並擁有一個主節點實例,2個核心節點實例和15個任務節點實例。 我想我使用mapreduce作業和增量上傳將大約1TB的數據上傳到hbase。 現在 - 如何查找表的大小和區域劃分(字節)。通常在CDH上我會做一個hadoop fs -du/hbase。但是我的主節點上沒有/ hbase目錄。 我也很想知道區域服務器分配是如何工作的。所以,即使我有100個區域

    1熱度

    3回答

    EMR新手警報創建用戶日誌: 我們必須包含我們網站的使用數據大日誌。客戶通過其客戶ID進行身份驗證和識別。每當我們嘗試解決客戶問題時,我們都會grep通過所有日誌(使用customer_id作爲搜索條件)並將結果傳送到文件中。然後我們使用結果文件來解決問題。我們正在考慮使用EMR創建每個客戶的日誌文件,因此我們不必按需創建每個客戶的日誌文件。 EMR會爲我們每個小時爲每個客戶做到這一點。 我們正在

    1熱度

    1回答

    我試圖在Amazon Elastic MapReduce上使用hadoop,其中有數千個地圖任務要執行。如果有一小部分任務失敗,我確定,但是,亞馬遜關閉了這項工作,並在第一個映射器失敗時失去了所有結果。有沒有可用於增加允許的失敗作業數量的設置?謝謝。

    2熱度

    1回答

    我正在使用AWS Elastic MapReduce,我希望能夠設置日誌級別。例如,我想爲log.isDebugEnabled()返回true。谷歌搜索有一點使我發現這個博客文章: http://vangjee.wordpress.com/2012/03/24/an-approach-to-controlling-logging-on-amazon-web-services-aws-elastic

    2熱度

    1回答

    我有幾個文本,我想知道行號和文件出現的單詞。 我得到的文件很好,但沒有行號。 這是地圖 #!/usr/bin/env python import sys import os find = 'but' #word to find linesCont = 0 file = os.environ["map_input_file"] for line in sys.stdin:

    0熱度

    1回答

    你怎麼確定 只有4地圖和2減少有 因爲當我使用1大實例 它有時會給我6地圖2減少 隨機沒有。 我試圖把mapred.map.tasks = 4 在額外的參數,而settingup工作 也didn`t工作

    2熱度

    1回答

    我有一個映射,與減速機的工作很好,當我在管道版本上運行它們: cat data.csv | ./mapper.py | sort -k1,1 | ./reducer.py 我用彈性mapreducer嚮導,加載的輸入,輸出,引導等。引導成功,但我仍然在執行中出現錯誤。 這是我得到我的標準錯誤的錯誤步驟1中...... + /etc/init.d/hadoop-state-pusher-cont

    0熱度

    1回答

    我在Amazon AWS上使用Elastic Mapreduce基礎結構。流量自動終止。根據亞馬遜控制檯的最後狀態更改原因是:「作業流程中的所有奴隸都已終止」。 創建jobflow命令: elastic-mapreduce --create --name MyCluster --alive --instance-group master --instance-type m1.xlarge --in

    6熱度

    1回答

    當我運行使用m1.large作爲要由作業流創建的hadoop實例的實例類型的Amazon EMR作業時,出現「設備上沒有剩餘空間」錯誤。工作生成約。最大10 GB的數據,因爲m1.large實例的容量應該是420GB * 2(根據:EC2 instance types)。我很困惑10GB數據如何導致「磁盤空間已滿」類型的消息。我意識到如果我們已經完全耗盡了文件系統允許的inode總數,也可能會產生

    0熱度

    1回答

    如何將文件保存到./ssh目錄(我正在使用mac osx)。我應該在命令行中輸入什麼內容,或者如何將下載的文件保存到./ssh? (更多情況下,我使用亞馬遜MapReduce和希望保存EMR.pem文件SSH)。