只有在所有地圖都運行後,我需要在一臺計算機上發送mapper的輸出。Hadoop map reduce--發送mapper的輸出後才能減少所有地圖的運行
例如:
如果計算機#1跑了他的地圖功能的1000倍,我要發送一次輸出所有1000米的地圖發生了。
有沒有辦法做到這一點?
編輯 - 爲什麼我想這樣做了解釋:
我實現算法篷。 我的計劃是在我擁有的每臺機器上運行頂蓋,並找到它的本地數據的質心。
一旦我找到本地質心,我想發送到reducer局部質心和多少點與他們有關。
例如: 機器#1找到3個質心,每個質心有30個視圖。 我想提交以減少(質心,意見)。 但問題是,只有在機器的所有地圖功能都運行後,我纔會知道這些視圖。這就是爲什麼我想發送機器映射器的輸出以減少一次全部運行。
我不知道你爲什麼想這樣做,但肯定有一個可以設置的配置字符串。我不記得它叫什麼了。我們總是讓我們的默認值(我相信是99%或95%)。 – gardenhead