2010-06-02 63 views
6

我開始了一個新的Hadoop項目,該項目將有多個hadoop作業(以及多個jar文件)。使用mercurial進行源代碼管理,我想知道什麼是組織存儲庫結構的最佳方式?每個工作應該分別存放在不同的倉庫中,還是讓它們保持相同的效率更高效,但分解成多個文件夾?Hadoop項目的存儲庫組織

回答

1

如果你在流水線化Hadoop作業(其中一個的輸出是另一個的輸入),我發現最好將它的大部分保存在同一個存儲庫中,因爲我傾向於生成很多通用的方法,我可以用於各種MR作業。

就我個人而言,由於通常沒有依賴關係,因此我將流式作業與我的傳統作業保持在單獨的回購中。

您是否打算使用DistributedCache或流式作業?您可能需要爲您分發的文件設置單獨的目錄。你真的需要每個Hadoop工作的JAR嗎?我發現我沒有。

如果您提供有關您計劃使用Hadoop的更多詳細信息,我可以看看還有什麼可以建議的。

+0

謝謝埃裏克。我不打算做任何流式工作(可能會在未來,但尚未到達)。這個項目非常年輕,並且在不斷髮展,所以我很好奇如何佈置一個能夠適應未來項目增長的良好基礎。 – 2010-06-02 22:51:02