排隊和映射/減少

我看到大數據排隊作業是高性能的實時工作，因爲他們產生的數據很容易被使用。 Map/Reduce作業（hadoop）出於不同的原因表現出來：它們處於脫機狀態，允許大規模並行數據連接和聚合。排隊和映射/減少

但是，我想知道 - 是否有任何大數據攝取系統能夠結合實時數據饋送實現map/reduce風格的並行性？

具體而言，這將意味着（在hadoop中），允許讀取和寫入和聚合尚未完成的「部分」輸出文件。

2012-01-11 jayunit100

查看HStreaming哪個用戶MR範例。我沒有用過它們，所以我不知道它的優缺點。

用於實時和批處理的通用代碼庫和工具。

HStreaming可以使用相同的MapReduce和Apache Pig算法和功能進行實時或批處理。諸如用戶定義的函數（UDF）之類的現有代碼可以被遷移到流處理中，而不會改變業務需求或不會改變。

如果沒有MR，則有S4，Storm（稱爲實時處理的Hadoop），StreamBase，HPCC和其他選項實時處理。

2012-01-11 17:00:23

再次感謝。我想知道你對hadoop生態系統周圍的軟件非常瞭解。 – jayunit100 2012-01-11 19:24:42

無非是好奇:) – 2012-01-12 01:54:36

回答