mrjob

3熱度

2回答

我試圖用MRJob實現一個非常基本的wordcount示例。一切工作正常使用ASCII輸入，但是當我西里爾話混入輸入，我得到這樣的事情作爲一個輸出 "\u043c\u0438\u0440" 1 "again!" 1 "hello" 2 "world" 1 據我瞭解，上面第一行是西里爾文字的編碼單發生「мир」，這是關於我的示例輸入文本的正確結果。這裏是MR代碼 class MRWordC

0熱度

1回答

MapReduce：如何跟蹤映射器中多行的狀態（比如說計數trigrams）？

我正在嘗試使用Python中的mrjob框架編寫MapReduce程序來計算Trigrams。到目前爲止，這是我所： from mrjob.job import MRJob class MRTrigram(MRJob): def mapper(self, _, line): w = line.split() for idx,word in enumerate

0熱度

2回答

如何將文件分塊成多處理

我有大約1.5 Gb的文件，我想將文件分成塊，以便我可以使用多處理來處理每個塊使用python中的pp（並行python）模塊。直到現在我已經在python中使用了f.seek，但是它需要很多時間，因爲它可能會逐字節地增加字節數。所以可以採用哪種替代方法？我可以通過python的mrjob（map-reduce包）來做到這一點嗎？示例代碼：我在做這樣的事情 def multi(i,slots,

0熱度

1回答

我可以使用MRJob以本地模式處理大文件嗎？

我有一個相對較大的文件 - 大約10GB來處理。如果MRJob決定將它分類到RAM或類似的東西，我懷疑它不適合我的筆記本電腦的RAM。與此同時，我不想安裝hadoop或EMR--工作並不緊急，我可以在入睡前簡單地啓動工作，並在第二天早上得到結果。換句話說，我對本地模式很滿意。我知道，表演不會很完美，但現在可以。那麼它可以在一臺弱機器上處理這些「大」文件嗎？如果是的話 - 你會推薦做什麼（除了設

0熱度

1回答

是否可以使用Hadoop Streaming處理多行記錄？

我有記錄是這樣的： Name: Alan Kay Email: [email protected] Date: 09-09-2013 Name: Marvin Minsky Email: [email protected] City: Boston, MA Date: 09-10-2013 Name: Alan Turing City: New York City, NY D

2熱度

2回答

如何將avro文件用作MRJob作業的輸入？

我需要將avro文件作爲mrjob hadoop作業的輸入。除非我將額外的命令傳遞給hadoop streaming jar，否則我找不到任何關於如何做的文檔。這會使開發複雜化，因爲我一直在使用inline跑步者進行本地測試。是否有可能使用inline跑步者用MRJob讀取avro文件？

0熱度

1回答

mrjob - 源目錄

的自動焦油我使用mrjob創建了亞馬遜電子病歷工作。我的MapReduce工作從一個共同的輔助類繼承，使我的Apache日誌我解析容易，I類是從在若干MapReduce作業共同繼承的解析，所以這是我的文件結構： __init__.py count_ip.py (mapreduce job) common/apache.py (base class count_ip.py inherits fr

1熱度

1回答

是否可以將其他輸入添加到mrjob的後續步驟？

我有一個由3個步驟組成的mrjob。第二步需要輸入第一步的結果以及S3中的更多內容。我明白，我總是可以通過第一步「流」它，這意味着發射是如此，只在第二步中使用它，但我想避免這種情況。有沒有辦法爲mrjob中的後續步驟定義附加輸入？

1熱度

3回答

mrjob：示例如何自動知道如何在文本文件中查找行？

我想了解mrjob更好 from mrjob.job import MRJob class MRWordFrequencyCount(MRJob): def mapper(self, _, line): yield "chars", len(line) yield "words", len(line.split()) yield "lines",

0熱度

1回答

如何獲取並處理每個迭代的mrjob映射器的新S3文件？

我有一個status_changes的日誌文件，每個文件都有一個driver_id，時間戳和持續時間。使用driver_id和timestamp，我想從S3中獲取適當的GPS日誌。這些GPS日誌以bucket_name/yyyy/mm/dd/driver_id.log形式存儲在S3存儲桶中。 from mrjob.job import MRJob class Mileage(MRJob):