2012-01-11 161 views
1

我看到大數據排隊作業是高性能的實時工作,因爲他們產生的數據很容易被使用。 Map/Reduce作業(hadoop)出於不同的原因表現出來:它們處於脫機狀態,允許大規模並行數據連接和聚合。排隊和映射/減少

但是,我想知道 - 是否有任何大數據攝取系統能夠結合實時數據饋送實現map/reduce風格的並行性?

具體而言,這將意味着(在hadoop中),允許讀取和寫入和聚合尚未完成的「部分」輸出文件。

回答

1

查看HStreaming哪個用戶MR範例。我沒有用過它們,所以我不知道它的優缺點。

用於實時和批處理的通用代碼庫和工具。

HStreaming可以使用相同的MapReduce和Apache Pig算法和功能進行實時或批處理。諸如用戶定義的函數(UDF)之類的現有代碼可以被遷移到流處理中,而不會改變業務需求或不會改變。

如果沒有MR,則有S4Storm(稱爲實時處理的Hadoop),StreamBaseHPCC和其他選項實時處理。

+0

再次感謝。我想知道你對hadoop生態系統周圍的軟件非常瞭解。 – jayunit100 2012-01-11 19:24:42

+0

無非是好奇:) – 2012-01-12 01:54:36