mrjob

2熱度

2回答

有沒有辦法在Hadoop管理Web界面中從mrjob指定作業的標題？

我有幾個不同的作業，從Python庫mrjob開始，包括具有多個步驟的作業。我如何用自定義名稱替換streamjob？例如，wordcount_step_1，wordcount_step_2等

1熱度

1回答

MapReduce：Mrjob保存結果持續

我試圖用三個步驟來實現一個mapreduce作業，並且在每一步之後我都需要到目前爲止所有步驟中的數據。有沒有人有關於如何將映射器或縮減器的結果保存到mrjob中的磁盤的示例/想法？

1熱度

1回答

如何優化這個MapReduce函數，Python，mrjob

我很新的Map/Reduce原理和python mrjob框架，我寫了這個示例代碼，它工作正常，但我想知道我可以改變什麼它使它「完美」/更高效。 from mrjob.job import MRJob import operator import re # append result from each reducer output_words = [] class MRSudo(M

1熱度

1回答

如何在AWS accesskey和secretaccesskey中更改mrjob中的環境變量

如何更改mrjob中的$AWS_ACCESS_KEY_ID和以輸入我自己的AWS憑證？我使用的是Mac OS X的終端 https://github.com/Yelp/mrjob 謝謝！

1熱度

2回答

如何使用MapReduce計算python中兩個變量之間的相關性

我試圖使用AWS上提供的Million Song數據集來查找軌道的響度與其流行度之間的關聯。我遵循一個基本教程（http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/）來獲取每個音軌的數據，並使用MRJob和Python構建了我的項目。現在我迷失瞭如何在使用映射器和縮減器時找到軌道之間的相

1熱度

2回答

MRJOB打開JSON文件 - Python

我想加載一個json文件作爲映射函數的一部分，但它返回「目錄中沒有這樣的文件」，雖然該文件存在。我已經打開一個文件並通過它的行解析。但是想要將它的一些值與第二個JSON文件進行比較。 from mrjob.job import MRJob import json import nltk import re WORD_RE = re.compile(r"\b[\w']+\b") se

0熱度

1回答

MRJob - Python的 - 如何返回null時劃分爲0 /值

我怎麼能修改此代碼，以便當senti_avg不整除（0 /值），減速機（）輸出NULL或NONE，而不是崩潰？ def reducer(self, bs_id, value): avg_data = list(value) senti_sum = sum([a[0] for a in avg_data]) word_sum = sum([a[1] for a in a

1熱度

1回答

如何在多步驟map-reduce程序中運行一次最終的「打印」語句？

我基本上試圖通過在Hadoop上擴展它來實現推薦系統。在第一步驟中，我試圖文件。如果我簡單地存儲它作爲 {項目A，項目B，相似度} 在計算每一對在輸入項目之間的相似輸出文件的大小變得非常大（對於60kb的輸入，我得到的輸出文件大小爲6mb）。因此，我認爲是否會更好地將結果存儲在python字典中，並在整個地圖縮小程序結束後打印字典ONLY ONCE。我在這樣做不成功請幫助我。我的Python

0熱度

1回答

如何取消mrJob一旦運行？^C不起作用

有沒有簡單的方法讓mrJob腳本中斷？很簡單的問題，但它對調試有很大的影響。我主要對取消python-only測試工作感興趣，因爲這是大多數調試發生的地方。 python my_mr_script.py my-mr-input.txt

4熱度

4回答

mapreduce如何排序和洗牌工作？

我正在使用yelps MRJob庫來實現map-reduce功能。我知道map reduce有一個內部排序和隨機算法，它根據它們的鍵對值進行排序。所以，如果我有地圖階段後的結果如下 (1, 24) (4, 25) (3, 26) 我所知道的排序和洗牌階段將產生以下輸出 (1, 24) (3, 26) (4, 25) 這是預期但是，如果我有兩個相似的鑰匙和不同的值爲什麼排序和混洗階段會根據