0
如果我有一個從多個csv文件讀取並生成鍵值對的map.py文件,如何將這些文件傳遞給我的reducer.py並在本地進行測試?如何在本地測試地圖並減少代碼?
如果我有一個從多個csv文件讀取並生成鍵值對的map.py文件,如何將這些文件傳遞給我的reducer.py並在本地進行測試?如何在本地測試地圖並減少代碼?
如果您正在使用Hadoop流,那麼你就可以在本地測試你的腳本是這樣的:
cat *.csv | map.py | sort -k1,1 | reducer.py
從映射數據傳遞到減速機在Hadoop的數據流,簡單地寫"<key>\t<value>"
到stdout
這就是我所解決的。但是使用sort -n – Shehryar
安裝的Hadoop在僞模式 – BruceWayne