0
我期待實現從與他與學位X.算法圖地圖降低
該圖是由包含在文件中表示連接返回每個用戶的用戶的列表的圖形算法每行用戶連接(連接在2方向)。
例如:
davidbowie omid
davidbowie kim
kim torsten
torsten omid
brendan torsten
ziggy davidbowie
mick ziggy
這裏1度,必須有以下輸出:
torsten brendan kim omid
brendan torsten
ziggy davidbowie mick
mick ziggy
kim davidbowie torsten
omid davidbowie torsten
davidbowie kim omid ziggy
每一行包含一個用戶和與他被連接到1度用戶列表。
運行與Python MapReduce的功能只寫後在單獨的文件映射器和減速機:
cat data.csv | python mapper.py | sort -k1,1 | python reducer.py
我用Hadoop是一個新手,我的問題是什麼應該mapper.py
和reducer.py
寫?
數據集有多大?它看起來很適合圖形數據庫(例如Neo4j,OrientDB等),而不是編寫自己的mapreduce作業。如果這對你很重要,有Python API。 –