2015-12-06 34 views
0

我懷疑在哪種情況下,MapReduce會被選爲蜂巢或豬。MapReduce現實生活中使用

我知道,當

  1. 我們需要輸入數據的深入過濾使用它。
  2. 使用非結構化數據。
  3. 使用圖。 .... 但有我們不能使用蜂巢,豬或者我們可以用MapReduce的更好工作的任何地方,它是在實際項目
  4. 使用頻率高的

回答

1

Hive和Pig是通用的解決方案,他們將有開銷同時處理數據。大多數情況下它是微不足道的,但在某些情況下,它可能是相當可觀的。

如果需要連接多個表,使用Hive和Pig會嘗試應用通用解決方案,如果在理解數據後使用map reduce,則可以提出更優化的解決方案。

但是map reduce應該被看作內核。如果您的解決方案可以在其他地方重複使用,最好使用map reduce進行開發,並與Hive/Pig/Sqoop集成。

豬可用於處理非結構化數據。在處理數據時,它將比Hive提供更大的靈活性。

+0

如果我們談論這個百分比,那麼在生產項目中,每個項目的概率是多少,考慮到這三個項目的總和是100% – user3123372

0

這些日子裏裸露的MapReduce不是很常見。更高層次的抽象(比如你提到的兩個)對於查詢工作負載更加流行和充分。

即使在HiveQL過於嚴格的情況下,對於低級別批量作業或更熱門的Spark,也可能會尋求替代方法,如級聯或滾燙。

使用這些高級抽象的主要動機是因爲大多數應用程序都需要一系列映射和縮減階段,MapReduce API讓您獨自解決如何序列化任務之間的數據。