2012-04-11 91 views
0

我已經下載了我的收件箱,並且正在使用Pig和Hadoop處理我的電子郵件。我已使用Pig和Wonderdog將這些電子郵件編入ElasticSearch中。何時使用Hadoop,何時使用ElasticSearch進行group by by/facets?

現在我正在爲收件箱中的每個電子郵件地址創建一個網頁,以顯示這些地址發送的郵件。在豬的電子郵件地址,店裏的MongoDB(或ElasticSearch)

1)組:

我可以通過兩種方式做到這一點。

2)查詢ElasticSearch使用facets從郵件索引中爲我返回此列表。

哪一個是要去做的答案,以及它取決於什麼?

回答

1

選擇1 - 通過在豬的電子郵件地址,店裏的MongoDB(或ElasticSearch)組:

您是預先計算的結果,並存儲到MongoDB的或ElasticSearch。如果數據很大並且不經常更新,這是一件好事。

選項2 - 查詢ElasticSearch使用構面從電子郵件索引爲我返回此列表。

如果數據經常更新並且即使對於小數據集,那麼通過查詢數據(在正確字段上索引)更好地執行該選項將會產生快速結果,而且您​​不必依賴預處理。