emr

    1熱度

    1回答

    有誰知道在EMR上運行的MapR使用Amazon的S3Distcp工具是否存在問題?我試圖使用它,但不斷收到在/ mnt/VAR以下異常/日誌/的Hadoop /步驟: Exception in thread "main" java.lang.RuntimeException: Unable to delete directory hdfs:/tmp/e9333a37-f400-4982-9687

    0熱度

    2回答

    我是Hadoop的新手,在AWS Elastic Mapreduce下運行。 我需要Hadoop中集羣範圍的原子計數器,並且建議使用zookeeper來做到這一點。 我相信zookeeper是Hadoop堆棧的一部分(對吧?),我如何從Elastic Mapreduce作業訪問它,以便設置和更新一個集羣範圍的計數器?

    1熱度

    3回答

    我已經爲我的主/從節點打開了EC2安全組,因此我可以從本地瀏覽器訪問作業跟蹤器界面。我使用http://MASTER-IP:9100連接到它。 一切工作順利,直到我試圖從任務的詳細信息訪問任務跟蹤日誌 - http://ec2-xx-xx-xx-xx.compute-1.amazonaws.com:9100/taskdetails.jsp?tipid=task_201212181113_0001_

    0熱度

    1回答

    我正在使用hive-jdbc-0.7.1-cdh3u5.jar。我有一些內存密集型查詢在EMR上運行,偶爾會失敗。當我看到作業服務器我看到查詢被打死,我看到以下錯誤: 產生java.io.IOException:用137 非零狀態,但是任務進程退出,蜂房JDBC驅動程序execute()調用不會檢測到這一點,而是被掛起。沒有例外被發現。有任何想法嗎?感謝: ST stQuery =

    0熱度

    3回答

    我的EMR集羣中的路徑爲'hdfs:/// logs'的日誌文件很多。每個日誌條目都是多行,但有一個起始和結束標記來劃分兩個條目。 現在, 未在日誌文件中的所有條目都是有用 其是有用的需要,待轉化的條目和輸出需要被存儲在一個輸出文件,讓我可以有效地查詢(使用配置單元)稍後輸出日誌。 我有一個python腳本,可以簡單地採取一個日誌文件,並做一部分。和b。如上所述,但我沒有編寫任何映射器或縮減器。

    0熱度

    1回答

    我正在考慮將我的EMR實施從舊版本遷移到最新版本,因爲我主要面臨很多問題。 我目前的實現使用Hadoop 0.20.2。 我想了解多少努力代碼變化方面將需要從0.20.2遷移到 - 0.20.205 1.0.1 是API非常不同,需要大量重新編碼?任何基本的想法都會非常有幫助。

    2熱度

    1回答

    假設我有一個在11節點集羣上運行的EMR作業:m1.small主節點,而10個m1.xlarge從節點。 現在一個m1.xlarge節點具有15 GB的RAM。 如何確定可以設置的並行映射器和reducer的數量? 我的工作是內存密集型,我想有越來越多的堆分配給JVM。 另一個相關的問題: 如果我們設置以下參數: <property><name>mapred.child.java.opts</na

    1熱度

    2回答

    我正在開發一個代碼來讀取數據,並使用mapreduce將其寫入HDFS。但是,當我有多個文件,我不明白它是如何處理的。映射器的輸入路徑是目錄的名稱,從輸出中可以明顯看出 String filename = conf1.get("map.input.file"); 那麼它如何處理目錄中的文件?

    2熱度

    2回答

    嗨,我新使用Amazon EMR和Hadoop。我想知道如何從EMR作業中讀取外部文件(存儲在S3中)。例如,我有一個包含黑名單字符串的長列表的文件。當我的EMR作業正在處理我的輸入時,如何才能使作業在事先處理的黑名單字符串列表中讀取,以便在處理過程中使用它? 我使用一個普通的Java Scanner類和硬編碼S3文件路徑嘗試,但似乎並沒有工作,雖然我可能只是做是錯誤的...

    6熱度

    2回答

    我想使用s3distcp僅將單個文件複製到HDFS。我已經嘗試使用srcPattern參數,但它沒有幫助,它一直拋出java.lang.Runtime異常。 有可能我使用的正則表達式是罪魁禍首,請幫忙。 我的代碼如下: elastic-mapreduce -j $jobflow --jar s3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest