Hadoop正向調度

在一篇關於實施決策樹分析大數據的谷歌文章中，他們提到了一些有關正向調度地圖縮減作業的內容。Hadoop正向調度

他們說，如果他們目前有2個工作要運行，他們運行第一個工作，第二個工作開始設置。他們有一個線索，用於查看第一份工作何時完成以及何時完成，然後將輸入提供給第二份工作並啓動它。這爲他們節省了大量時間，因爲他們提到的算法具有迭代工作。

我在想如何在hadoop上做到這一點。這裏是論文的引用。遠期計劃是在第6.1段

Planet

來源

2012-08-14 jojoba

如果您不想爲此使用Oozie，則可以直接在Java代碼中執行此操作。

我已經寫了關於如何在Hadoop中實現迭代工作：

http://codingwiththomas.blogspot.de/2011/04/controlling-hadoop-job-recursion.html

但是請注意，這不是很有效，迭代算法重，你應該更好地使用Apache Hama。

來源

2012-08-14 07:31:24

謝謝thomas.我看到你的工作之前，當我第一次開始構建這個框架，我發現了一些有用的東西。事情是，我已經完成了它，它工作得很好，我只是尋找一些優化。我發現我的自我，哈託普不是很迭代，我看到你對哈馬的建議，但我不想搞砸新的東西，因爲我時間不足。谷歌構建的東西肯定不是最高效的，但是他們設法在hadoop層面上做了很多工作，並且效率很高。如果hama和oozie是唯一能夠提供幫助的東西，那麼我會及時看看它們。 – jojoba 2012-08-14 18:12:29

否問題，希望這個迭代工作流程可以用於你的mapreduce作業。 – 2012-08-14 18:14:02

Oozie是你在找什麼。隨着技術的發展，這有點不成熟，但我相信它會處理你描述的工作流程功能。您可以構建依賴關係圖並觸發事件的執行。

來源

2012-08-14 03:05:20

謝謝我會看看它，但我很短的時間，我想我不會能夠使用它，至少現在。我已經完成了框架，現在我試着讓它更有效率。谷歌也做了同樣的事情，他們首先完成了它，然後開始了很多優化，主要是在hadoop級別，而不是它自己的算法。畢竟它的谷歌和我認爲他們可以做這些瘦：P – jojoba 2012-08-14 18:06:35

Hadoop正向調度

回答

相關問題