1
我看到大數據排隊作業是高性能的實時工作,因爲他們產生的數據很容易被使用。 Map/Reduce作業(hadoop)出於不同的原因表現出來:它們處於脫機狀態,允許大規模並行數據連接和聚合。排隊和映射/減少
但是,我想知道 - 是否有任何大數據攝取系統能夠結合實時數據饋送實現map/reduce風格的並行性?
具體而言,這將意味着(在hadoop中),允許讀取和寫入和聚合尚未完成的「部分」輸出文件。
我看到大數據排隊作業是高性能的實時工作,因爲他們產生的數據很容易被使用。 Map/Reduce作業(hadoop)出於不同的原因表現出來:它們處於脫機狀態,允許大規模並行數據連接和聚合。排隊和映射/減少
但是,我想知道 - 是否有任何大數據攝取系統能夠結合實時數據饋送實現map/reduce風格的並行性?
具體而言,這將意味着(在hadoop中),允許讀取和寫入和聚合尚未完成的「部分」輸出文件。
查看HStreaming哪個用戶MR範例。我沒有用過它們,所以我不知道它的優缺點。
用於實時和批處理的通用代碼庫和工具。
HStreaming可以使用相同的MapReduce和Apache Pig算法和功能進行實時或批處理。諸如用戶定義的函數(UDF)之類的現有代碼可以被遷移到流處理中,而不會改變業務需求或不會改變。
如果沒有MR,則有S4,Storm(稱爲實時處理的Hadoop),StreamBase,HPCC和其他選項實時處理。
再次感謝。我想知道你對hadoop生態系統周圍的軟件非常瞭解。 – jayunit100 2012-01-11 19:24:42
無非是好奇:) – 2012-01-12 01:54:36