Cassandra和Pig的集成 - hadoop是否可選？

我正在嘗試設置cassandra +豬羣試驗。 cassandra wiki使聽起來像你需要hadoop與豬融爲一體。Cassandra和Pig的集成 - hadoop是否可選？

但cassandra-src/contrib/pig中的自述文件聽起來像你可以在沒有hadoop的情況下在cassandra上運行豬。

如果hadoop是可選的，那麼不使用它會損失什麼？

2012-01-11 marathon

Hadoop只在您測試時纔可選。爲了在任何規模上做任何事情，你也需要hadoop。

沒有hadoop的情況下運行意味着您在本地模式下運行豬。這基本上意味着所有的數據都由您正在運行的同一個pig進程處理。對於單個節點和示例數據，這可以很好地工作。

當運行任何大量數據或多臺機器時，您都希望以hadoop模式運行pig。通過在cassandra節點上運行hadoop任務跟蹤器，pig可以利用通過分發工作負載和使用數據本地來減少網絡傳輸提供的優勢map reduce。

2012-01-11 05:13:29 nickmbailey

這就是我需要知道的。謝謝。 – marathon 2012-01-11 09:58:38

-1

它是可選的。 Cassandra有它自己的豬的LoadFunc和storeFunc的實現，它允許你查詢和存儲。

Hadoop和Cassandra在很多方面有所不同。如果不知道你想要完成什麼，很難說失去了什麼。

2012-01-11 02:59:15 ligerdave

Pig併發需要Hadoop。沒有Cassandra併發Pig，只有本地模式。 – rjurney 2012-10-11 08:48:56

回答