mrjob

    1熱度

    1回答

    我正在嘗試MapReduce日誌,我想在EMR中處理它們之前按文件名過濾桶中的所有日誌。另外,有些文件是tar目錄,我想讓mrjob解壓縮它,然後過濾其中的文件,只解析相關的文件。 任何想法如何從MrJob通過文件名過濾桶S3? 我找到mapper_pre_filter!方法,但它只能逐行過濾輸入。

    2熱度

    1回答

    我爲Hadoop編寫了一個簡單的k-均值聚類代碼(兩個獨立的程序 - 映射器和簡化器)。該代碼正在處理本地盒子上2d點的小數據集。它是用Python編寫的,我打算使用Streaming API。 每次運行mapper和reducer後,都會生成新的中心。這些中心是下一次迭代的輸入。 基礎上提出的建議,我用mrjob,工作蟒蛇,適用於多步驟, def steps(self): return [s

    4熱度

    1回答

    我正在製作一個map-reduce作業,包含多個步驟。每個步驟使用mrjob接收前一步輸出。問題是我不想要它。 我想要的是提取一些信息並在第二步中針對所有輸入使用它等等。使用mrjob可以做到這一點嗎? 注意:因爲我不想使用emr,所以this question對我沒什麼幫助。 UPDATE:如果不可能在單個工作上做到這一點,我需要在兩個單獨的工作中完成。在這種情況下,是否有任何方法來包裝這兩個工

    4熱度

    1回答

    我正在嘗試使用mrjob在EMR上運行hadoop,並且無法弄清楚如何設置日誌記錄(用戶在地圖/減少步驟中生成日誌),以便我可以訪問它們集羣終止後。 我試圖使用logging模塊設置日誌記錄,print和sys.stderr.write(),但目前爲止沒有運氣。唯一適用於我的選項是將日誌寫入文件,然後SSH將機器讀取並讀取,但其繁瑣。我希望我的日誌轉到stderr/stdout/syslog並自動

    0熱度

    1回答

    我有一個mrjob配置,其中包括從s3將大文件加載到HDFS中。我想將這些命令包含在配置文件中,但似乎所有引導程序命令都在集羣中的所有節點上執行。這是過度殺戮,也可能造成同步問題。 是否有某種方式只在mrjob配置中包含主節點的啓動命令,或者是羣集完成這些操作後SSH進入頭節點的唯一解決方案? 約阿夫

    0熱度

    1回答

    我的MapReduce程序的輸入是一組二進制文件。我希望能夠通過mrjob閱讀它們。經過一番研究,似乎我必須編寫一個定製的hadoop流媒體jar。有一種更簡單的方法嗎?或者這樣的罐子容易得到?更多細節如下。 輸入文件只是一個8字節整數的序列。我希望我的mapper函數一次調用2個整數。 我首先想到的,我可以轉換成鹹菜二進制格式,然後指定: INPUT_PROTOCOL = mrjob.proto

    0熱度

    1回答

    當我運行我的MRJob腳本並使用CLI爲工作啓動EMR集羣時,我試圖弄清楚如何將數據從S3加載到集羣中的HDFS上。我想做這個作爲安裝過程的一部分。 我已經搜索了很多地方,以便深入瞭解與MRJob一起使用的正確語法,以便將我的S3數據預加載到HDFS中。我仍然在加快術語和流程的速度。 MRJob提到JarStep和Hadoop流在其文檔:https://pythonhosted.org/mrjob

    0熱度

    2回答

    我試過使用mrjob更改wordcount示例。我的結構的項目是: ├── input_text.txt ├── store_xml_dir │   ├── xml_file.xml │   └── xml_parse.py └── wordcount.py 和內容wordcount.py的是: import os import sys cwdir = os.path.dirnam

    2熱度

    1回答

    我正嘗試使用mrjob 0.4.2將IAM角色設置到我的EMR羣集。 我看到在0.4.3中有一個新的選項來做到這一點,但它仍在開發中,我寧願使用穩定版本。 任何想法如何做到這一點?我曾嘗試使用Amazon的控制檯創建集羣,然後使用mrjob(通過連接到該集羣)運行引導程序+步驟操作,但沒有奏效。 另一種選擇是可以更改EMR實例的默認權限,以便mrjob可以利用它。

    1熱度

    1回答

    當我被教授mapreduce時,其中一個關鍵組件是組合器。它是映射器和Reducer之間的一個步驟,它基本上在映射階段結束時運行Reducer,以減少映射器輸出的數據行數。隨着我需要處理的數據量的增加(多TB級),減少步驟變得過於緩慢。我和我的一位朋友交談過,他說這也是他的經驗,而不是使用組合器,他使用散列函數分割他的縮減鍵,這減少了減少步驟中每個鍵的值的數量。我試過這個,它工作。有沒有其他人有組