有人可以勾勒出不同的Hadoop分佈之間的各種不同版本:Hadoop的分配差異
- Cloudera的 - http://www.cloudera.com/hadoop
- 雅虎 - http://developer.yahoo.net/blogs/hadoop/
使用Apache的Hadoop發行版作爲一個基線。
有沒有好理由在標準Apache Hadoop發行版中使用這些發行版之一?
有人可以勾勒出不同的Hadoop分佈之間的各種不同版本:Hadoop的分配差異
使用Apache的Hadoop發行版作爲一個基線。
有沒有好理由在標準Apache Hadoop發行版中使用這些發行版之一?
聲明:我在實習Cloudera的這個夏天(但我的一些最好的朋友是在雅虎:-))
雅虎的分佈是一個版本的Hadoop 20的他們跑(跑?)對一些子集的集羣。它包含一組穩定性修補程序,錯誤修復程序等。它是一個源代碼版本;它沒有管理員友好的功能,如rpm或debian軟件包等。
Cloudera發行套件爲rpms和debs(源代碼也可用)。這意味着您可以通過標準方法等獲得更新。它還包括穩定性和錯誤修復補丁。它不斷被維護(並不是說雅虎不是 - 我想我可以繼續在github上查看他們上次更新它的時間)。它也包裝豬和蜂巢。
Cloudera的Hadoop 20分佈在beta版本,而18版本被認爲是穩定版本(更多關於Cloudera blog)。 18版本還包括Hive和Pig的軟件包; 20歲時,你必須自己構建它們(目前還沒有官方發佈支持20種豬的Pig或Hive,儘管存在修補程序)。 Cloudera和雅虎版本20之間可能會有重大的重疊;都提供清單,所以你可以檢查。 Cloudera發行版的最新文檔是http://archive.cloudera.com
雅虎不爲其發行提供支持;他們將補丁版本作爲服務提供給社區,因此有興趣的人可以構建雅虎內部運行的內容。考慮到雅虎集羣的規模,這是一個重大貢獻,尤其是如果您不是始終關注JIRA的Hadoop開發人員。 Cloudera支持它們的商業發佈,並通過Hadoop郵件列表提供一些社區支持,以及針對發行版特定問題的GetSatisfaction頁面。
這兩者都與香草Apache發行版非常不同,因爲它們在發行版之間進行了修補(20版的cloudera版本有60多個修補程序!)。
SquareCog幾乎在所有點上都是正確的,除了:Yahoo!分佈是在雅虎的所有生產羣上運行的,而不是它們的子集。這是總計超過25,000臺機器。雅虎!分銷商必須進行廣泛的端對端測試,以確保可靠,一致的操作。另一種分佈在應用補丁方面更爲自由,所以可能有更多的功能,但還沒有經過廣泛的測試。
雅虎已經停止了它自己的發行,並專注於Apache Hadoop。
http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/
近日,HortonWorks(www.hortonworks.com)轉動了雅虎。現在HortonWorks也將提供與雅虎不同的支持。
http://www.hortonworks.com/about-us/our-manifesto/
Cloudera公司是沿着相同的路線作爲HortonWorks
http://www.cloudera.com/products-services/
的主要區別是HortonWorks希望讓Apache的分佈穩定,安裝方便等。而Cloudera擁有基於Apache Hadoop的分發CDH *。
選擇Hadoop發行版(如Cloudera,Hortonworks或MapR)而不是Apache Hadoop有不同的原因。工具支持和商業支持有兩大優勢。在收集和集成所有Hadoop框架(如Pig,Hive等)時,您也遇到了很多麻煩,包括正確和兼容的版本。
看看我在InfoQ上的文章。它解釋的Apache的Hadoop的Hadoop之間分佈和大數據的差異套房,以及何時使用哪一個:
http://www.infoq.com/articles/BigDataPlatform
最好的問候,
凱的Wahner(@KaiWaehner,www.kai-waehner.de/blog)
HortonWorks已經脫離了雅虎,現在正在爲Hadoop提供支持。 – 2011-08-03 09:19:04