mrjob

-1熱度

1回答

我在機器A上使用MRJob在機器上啓動MapReduce作業B_0至B_10。該作業具有相關性，要求它不以缺省值/bin/python（即機器A上的which python的輸出）運行，但具有/path/to/weird/python，其存在於B的上，但不存在於A上。我如何告訴mrjob使用/bin/python本地啓動工作，但/path/to/weird/python一旦它的Hadoop集羣中

1熱度

1回答

TotalOrderPartitioner和mrjob

如何在使用mrjob時指定TotalOrderPartitioner？這是默認的，還是必須明確指定？我在不同的數據集上看到了不一致的行爲。

0熱度

1回答

ImportError：No module named step

我使用mrjob libaries在python中編碼mapreducer。我安裝mrjob包，但是當我from mrjob.step import MRStep它出現錯誤： from mrjob.step import MRStep ImportError: No module named step 任何人都可以幫我嗎？非常感謝

0熱度

1回答

如何使用Mrjob和Hadoop填充postgresql數據庫

我想通過使用MrJob和Hadoop 2.7.1的映射程序來填充Postgresql的數據庫。我目前使用下面的代碼： # -*- coding: utf-8 -*- #Script for storing the sparse data into a database by using Hadoop import psycopg2 import re from mrjob.job impo

0熱度

2回答

MRJob確定是否在線，本地，emr或hadoop運行

我是building on some old code from a few years back using the commoncrawl dataset與EMR使用MRJob。該代碼使用下列內MRJob子類映射函數來確定是否在本地或EMR運行： self.options.runner == 'emr' 這似乎無論是從來沒有工作過或不再工作，self.options.runner不通過該任

0熱度

1回答

使用python mapreduce識別虛假警報

有人可以幫我解決以下問題。我正在嘗試分析安全日誌以發現虛假警報。錯誤警報是包含「未創建TXT」的錯誤警報，並且「txt未創建」時爲true。如何從數據源中提取特定的「未創建的txt」（下面給出的示例輸入數據）。 from mrjob.job import MRJob class MRWordFrequencyCount(MRJob): def mapper(self, _, line):

0熱度

1回答

使用MRJob將作業提交到EMR集羣

MRJob等待，直到每個作業完成後纔將控制權交還給用戶。我把一個大的EMR步驟分解成更小的步驟，並希望一次性提交它們。該文檔討論programmatically submitting tasks，但示例代碼也等待作業完成（因爲他們調用runner.run（）命令，其中blocks until the job is complete）。此外，EMR有256個活動作業的限制，但是，我們如何去填充這

0熱度

1回答

Hadoop的STDERR輸出，這確實意味着一些問題？

我使用Mrjob-Hadoop的使用Python2.7的，Ubuntu 14.04和我有以下屏幕輸出： no configs found; falling back on auto-configuration no configs found; falling back on auto-configuration creating tmp directory /tmp/word-documen

0熱度

1回答

將相同的EBS快照附加到每個EMR捲上？

我想在EMR作業中使用EBS快照。由於映射器從快照中讀取，我想要在每個節點上安裝快照。除登錄到每個節點之外，是否有一種簡單的方法可以做到這一點？我想我可以讓我的mapreduce作業的第一步掛載它，但這似乎是錯誤的。有沒有更簡單的方法來做到這一點？

0熱度

1回答

psycopg2.ProgrammingError：*關係已經存在，同時通過MRjob

populatig數據庫我想用MRjob填充PostgreSQL數據庫。前幾天有人友好地建議我here分步映射器。我試過，但會給出錯誤： python db_store_hadoop.py -r local --dbname=en_ws xSparse.txt no configs found; falling back on auto-configuration no configs fou