什麼是MapReduce
框架或庫的最佳Python實現,可能與Apache hadoop
一樣好,但是如果只是它在Python中,並且在良好的記錄和易於理解方面最好,完全實現了MapReduce
模式,高可伸縮性,高穩定性,輕巧。什麼是mapReduce模式的最佳python實現?
我使用了一個名爲mincemeat
的Google搜索結果,不確定,但其他人都知道嗎?
感謝
什麼是MapReduce
框架或庫的最佳Python實現,可能與Apache hadoop
一樣好,但是如果只是它在Python中,並且在良好的記錄和易於理解方面最好,完全實現了MapReduce
模式,高可伸縮性,高穩定性,輕巧。什麼是mapReduce模式的最佳python實現?
我使用了一個名爲mincemeat
的Google搜索結果,不確定,但其他人都知道嗎?
感謝
你也應該看看太太:http://code.google.com/p/mrs-mapreduce/
它特別適合計算密集型迭代程序。
另一個不錯的選擇是Dumbo。
下面是運行地圖/減少字數統計的代碼。
def mapper(key,value):
for word in value.split(): yield word,1
def reducer(key,values):
yield key,sum(values)
if __name__ == "__main__":
import dumbo
dumbo.run(mapper,reducer)
要運行它,只給你的文本文件wc_input.txt
計數,輸出保存爲wc_output
。
python -m dumbo wordcount.py -hadoop /path/to/hadoop -input wc_input.txt -output wc_output