mrjob

1熱度

1回答

我正在嘗試MapReduce日誌，我想在EMR中處理它們之前按文件名過濾桶中的所有日誌。另外，有些文件是tar目錄，我想讓mrjob解壓縮它，然後過濾其中的文件，只解析相關的文件。任何想法如何從MrJob通過文件名過濾桶S3？我找到mapper_pre_filter！方法，但它只能逐行過濾輸入。

2熱度

1回答

基於mapreduce和hadoop的迭代kmeans

我爲Hadoop編寫了一個簡單的k-均值聚類代碼（兩個獨立的程序 - 映射器和簡化器）。該代碼正在處理本地盒子上2d點的小數據集。它是用Python編寫的，我打算使用Streaming API。每次運行mapper和reducer後，都會生成新的中心。這些中心是下一次迭代的輸入。基礎上提出的建議，我用mrjob，工作蟒蛇，適用於多步驟， def steps(self): return [s

4熱度

1回答

如何具體確定MRJob中每個地圖步驟的輸入？

我正在製作一個map-reduce作業，包含多個步驟。每個步驟使用mrjob接收前一步輸出。問題是我不想要它。我想要的是提取一些信息並在第二步中針對所有輸入使用它等等。使用mrjob可以做到這一點嗎？注意：因爲我不想使用emr，所以this question對我沒什麼幫助。 UPDATE：如果不可能在單個工作上做到這一點，我需要在兩個單獨的工作中完成。在這種情況下，是否有任何方法來包裝這兩個工

4熱度

1回答

mrjob：在EMR上設置日誌記錄

我正在嘗試使用mrjob在EMR上運行hadoop，並且無法弄清楚如何設置日誌記錄（用戶在地圖/減少步驟中生成日誌），以便我可以訪問它們集羣終止後。我試圖使用logging模塊設置日誌記錄，print和sys.stderr.write()，但目前爲止沒有運氣。唯一適用於我的選項是將日誌寫入文件，然後SSH將機器讀取並讀取，但其繁瑣。我希望我的日誌轉到stderr/stdout/syslog並自動

0熱度

1回答

僅在頭節點上執行mrjob boostrap命令

我有一個mrjob配置，其中包括從s3將大文件加載到HDFS中。我想將這些命令包含在配置文件中，但似乎所有引導程序命令都在集羣中的所有節點上執行。這是過度殺戮，也可能造成同步問題。是否有某種方式只在mrjob配置中包含主節點的啓動命令，或者是羣集完成這些操作後SSH進入頭節點的唯一解決方案？約阿夫

0熱度

1回答

如何讀取mrjob中的二進制輸入文件？

我的MapReduce程序的輸入是一組二進制文件。我希望能夠通過mrjob閱讀它們。經過一番研究，似乎我必須編寫一個定製的hadoop流媒體jar。有一種更簡單的方法嗎？或者這樣的罐子容易得到？更多細節如下。輸入文件只是一個8字節整數的序列。我希望我的mapper函數一次調用2個整數。我首先想到的，我可以轉換成鹹菜二進制格式，然後指定： INPUT_PROTOCOL = mrjob.proto

0熱度

1回答

在運行MRJob中的步驟之前，將S3數據加載到HDFS的特定語法示例是什麼？

當我運行我的MRJob腳本並使用CLI爲工作啓動EMR集羣時，我試圖弄清楚如何將數據從S3加載到集羣中的HDFS上。我想做這個作爲安裝過程的一部分。我已經搜索了很多地方，以便深入瞭解與MRJob一起使用的正確語法，以便將我的S3數據預加載到HDFS中。我仍然在加快術語和流程的速度。 MRJob提到JarStep和Hadoop流在其文檔：https://pythonhosted.org/mrjob

0熱度

2回答

無法在Mrjob中導入模塊

我試過使用mrjob更改wordcount示例。我的結構的項目是： ├── input_text.txt ├── store_xml_dir │ ├── xml_file.xml │ └── xml_parse.py └── wordcount.py 和內容wordcount.py的是： import os import sys cwdir = os.path.dirnam

2熱度

1回答

如何在EMR上使用MrJob 0.4.2設置IAM角色

我正嘗試使用mrjob 0.4.2將IAM角色設置到我的EMR羣集。我看到在0.4.3中有一個新的選項來做到這一點，但它仍在開發中，我寧願使用穩定版本。任何想法如何做到這一點？我曾嘗試使用Amazon的控制檯創建集羣，然後使用mrjob（通過連接到該集羣）運行引導程序+步驟操作，但沒有奏效。另一種選擇是可以更改EMR實例的默認權限，以便mrjob可以利用它。

1熱度

1回答

在hadoop streaming mapreduce中使用組合器（使用mrjob）

當我被教授mapreduce時，其中一個關鍵組件是組合器。它是映射器和Reducer之間的一個步驟，它基本上在映射階段結束時運行Reducer，以減少映射器輸出的數據行數。隨着我需要處理的數據量的增加（多TB級），減少步驟變得過於緩慢。我和我的一位朋友交談過，他說這也是他的經驗，而不是使用組合器，他使用散列函數分割他的縮減鍵，這減少了減少步驟中每個鍵的值的數量。我試過這個，它工作。有沒有其他人有組