如何在Hadoop中迭代MapReduce？（lang：python）

我寫了一個MapReduce程序（mapper.py和reducer.py）來處理Hadoop中的PageRank問題。如何在Hadoop中迭代MapReduce？（lang：python）

我想迭代MapReduce約10次迭代。我怎樣才能將第一輪MapReduce的輸出轉化爲第二輪MapReduce的輸入？

 1     2       10 
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result

2017-04-13 Wen

阿帕奇星火GraphX具有的PageRank內置 –

您可以將job1的輸出作爲輸入鏈接到job2。

inputdir1 - > outputdir1 - > outputdir2 ... - > outputdir9 - > outputdir10

2017-04-13 20:42:57 tk421

如何在Hadoop中迭代MapReduce？ （lang：python）