mrjob

    2熱度

    2回答

    我有幾個不同的作業,從Python庫mrjob開始,包括具有多個步驟的作業。我如何用自定義名稱替換streamjob?例如,wordcount_step_1,wordcount_step_2等

    1熱度

    1回答

    我試圖用三個步驟來實現一個mapreduce作業,並且在每一步之後我都需要到目前爲止所有步驟中的數據。有沒有人有關於如何將映射器或縮減器的結果保存到mrjob中的磁盤的示例/想法?

    1熱度

    1回答

    我很新的Map/Reduce原理和python mrjob框架,我寫了這個示例代碼,它工作正常,但我想知道我可以改變什麼它使它「完美」/更高效。 from mrjob.job import MRJob import operator import re # append result from each reducer output_words = [] class MRSudo(M

    1熱度

    1回答

    如何更改mrjob中的$AWS_ACCESS_KEY_ID和以輸入我自己的AWS憑證?我使用的是Mac OS X的終端 https://github.com/Yelp/mrjob 謝謝!

    1熱度

    2回答

    我試圖使用AWS上提供的Million Song數據集來查找軌道的響度與其流行度之間的關聯。我遵循一個基本教程(http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/)來獲取每個音軌的數據,並使用MRJob和Python構建了我的項目。現在我迷失瞭如何在使用映射器和縮減器時找到軌道之間的相

    1熱度

    2回答

    我想加載一個json文件作爲映射函數的一部分,但它返回「目錄中沒有這樣的文件」,雖然該文件存在。 我已經打開一個文件並通過它的行解析。但是想要將它的一些值與第二個JSON文件進行比較。 from mrjob.job import MRJob import json import nltk import re WORD_RE = re.compile(r"\b[\w']+\b") se

    0熱度

    1回答

    我怎麼能修改此代碼,以便當senti_avg不整除(0 /值),減速機()輸出NULL或NONE,而不是崩潰? def reducer(self, bs_id, value): avg_data = list(value) senti_sum = sum([a[0] for a in avg_data]) word_sum = sum([a[1] for a in a

    1熱度

    1回答

    我基本上試圖通過在Hadoop上擴展它來實現推薦系統。 在第一步驟中,我試圖文件。如果我簡單地存儲它作爲 {項目A,項目B,相似度} 在計算每一對在輸入項目之間的相似輸出文件的大小變得非常大(對於60kb的輸入,我得到的輸出文件大小爲6mb)。 因此,我認爲是否會更好地將結果存儲在python字典中,並在整個地圖縮小程序結束後打印字典ONLY ONCE。我在這樣做不成功請幫助我。 我的Python

    0熱度

    1回答

    有沒有簡單的方法讓mrJob腳本中斷?很簡單的問題,但它對調試有很大的影響。我主要對取消python-only測試工作感興趣,因爲這是大多數調試發生的地方。 python my_mr_script.py my-mr-input.txt

    4熱度

    4回答

    我正在使用yelps MRJob庫來實現map-reduce功能。我知道map reduce有一個內部排序和隨機算法,它根據它們的鍵對值進行排序。所以,如果我有地圖階段後的結果如下 (1, 24) (4, 25) (3, 26) 我所知道的排序和洗牌階段將產生以下輸出 (1, 24) (3, 26) (4, 25) 這是預期 但是,如果我有兩個相似的鑰匙和不同的值爲什麼排序和混洗階段會根據