2012-08-14 26 views
2

在一篇關於實施決策樹分析大數據的谷歌文章中,他們提到了一些有關正向調度地圖縮減作業的內容。Hadoop正向調度

他們說,如果他們目前有2個工作要運行,他們運行第一個工作,第二個工作開始設置。他們有一個線索,用於查看第一份工作何時完成以及何時完成,然後將輸入提供給第二份工作並啓動它。這爲他們節省了大量時間,因爲他們提到的算法具有迭代工作。

我在想如何在hadoop上做到這一點。這裏是論文的引用。遠期計劃是在第6.1段

Planet

回答

2

如果您不想爲此使用Oozie,則可以直接在Java代碼中執行此操作。

我已經寫了關於如何在Hadoop中實現迭代工作:

http://codingwiththomas.blogspot.de/2011/04/controlling-hadoop-job-recursion.html

但是請注意,這不是很有效,迭代算法重,你應該更好地使用Apache Hama

+0

謝謝thomas.我看到你的工作之前,當我第一次開始構建這個框架,我發現了一些有用的東西。事情是,我已經完成了它,它工作得很好,我只是尋找一些優化。我發現我的自我,哈託普不是很迭代,我看到你對哈馬的建議,但我不想搞砸新的東西,因爲我時間不足。谷歌構建的東西肯定不是最高效的,但是他們設法在hadoop層面上做了很多工作,並且效率很高。如果hama和oozie是唯一能夠提供幫助的東西,那麼我會及時看看它們。 – jojoba 2012-08-14 18:12:29

+1

否問題,希望這個迭代工作流程可以用於你的mapreduce作業。 – 2012-08-14 18:14:02

2

Oozie是你在找什麼。隨着技術的發展,這有點不成熟,但我相信它會處理你描述的工作流程功能。您可以構建依賴關係圖並觸發事件的執行。

+0

謝謝我會看看它,但我很短的時間,我想我不會能夠使用它,至少現在。我已經完成了框架,現在我試着讓它更有效率。谷歌也做了同樣的事情,他們首先完成了它,然後開始了很多優化,主要是在hadoop級別,而不是它自己的算法。畢竟它的谷歌和我認爲他們可以做這些瘦:P – jojoba 2012-08-14 18:06:35