在一篇關於實施決策樹分析大數據的谷歌文章中,他們提到了一些有關正向調度地圖縮減作業的內容。Hadoop正向調度
他們說,如果他們目前有2個工作要運行,他們運行第一個工作,第二個工作開始設置。他們有一個線索,用於查看第一份工作何時完成以及何時完成,然後將輸入提供給第二份工作並啓動它。這爲他們節省了大量時間,因爲他們提到的算法具有迭代工作。
我在想如何在hadoop上做到這一點。這裏是論文的引用。遠期計劃是在第6.1段
在一篇關於實施決策樹分析大數據的谷歌文章中,他們提到了一些有關正向調度地圖縮減作業的內容。Hadoop正向調度
他們說,如果他們目前有2個工作要運行,他們運行第一個工作,第二個工作開始設置。他們有一個線索,用於查看第一份工作何時完成以及何時完成,然後將輸入提供給第二份工作並啓動它。這爲他們節省了大量時間,因爲他們提到的算法具有迭代工作。
我在想如何在hadoop上做到這一點。這裏是論文的引用。遠期計劃是在第6.1段
如果您不想爲此使用Oozie,則可以直接在Java代碼中執行此操作。
我已經寫了關於如何在Hadoop中實現迭代工作:
http://codingwiththomas.blogspot.de/2011/04/controlling-hadoop-job-recursion.html
但是請注意,這不是很有效,迭代算法重,你應該更好地使用Apache Hama。
謝謝thomas.我看到你的工作之前,當我第一次開始構建這個框架,我發現了一些有用的東西。事情是,我已經完成了它,它工作得很好,我只是尋找一些優化。我發現我的自我,哈託普不是很迭代,我看到你對哈馬的建議,但我不想搞砸新的東西,因爲我時間不足。谷歌構建的東西肯定不是最高效的,但是他們設法在hadoop層面上做了很多工作,並且效率很高。如果hama和oozie是唯一能夠提供幫助的東西,那麼我會及時看看它們。 – jojoba 2012-08-14 18:12:29
否問題,希望這個迭代工作流程可以用於你的mapreduce作業。 – 2012-08-14 18:14:02