2015-04-30 28 views
2

我試圖索引和存儲大數據,我對使用什麼工具感到困惑。讓我首先說我是一個新手,並且只有關於這個主題的理論知識。我想:什麼是我的索引和處理大數據的正確工具?

1)使用的Hadoop(明確)

2)使用三種不同的PC

3)變換數據,以結構化形式和負載在HDFS用於索引從平面文件提取的日誌數據和mapreduce的。

我的問題是:

一)在試圖指標三個方面,是有可能映射指數-地圖索引地圖索引減少?如果不是,索引編制如何完成?如果可能的話順序解釋(例如index-map-reduce)

b)什麼是從提取到存儲的正確工具?

c)可以使用Hadoop進行簡單搜索,還是必須使用其他工具(如lucene/solr)?

d)在通過MapReduce階段之前,必須將數據轉換爲結構化形式,例如使用PDI?

+1

大話題,沒有「簡單」的答案。建議:Google:Hadoop開源分析 – FoggyDay

回答

0

那麼,如果您希望索引存儲在hadoop中的一些數據,那麼Cloudera Search是您的理想用例。鏈接:http://www.cloudera.com/content/cloudera/en/documentation/cloudera-search/v1-latest/Cloudera-Search-User-Guide/csug_introducing.html

我目前在Goibibo.com上使用它來建立日誌數據的索引。您可以將它用於實時索引數據以及地圖縮減模式。它在內部使用Solr進行索引並完全適合您的用例。您還可以通過Hue公開索引的集合。

+0

這些文件不存儲在hadoop中。我正在嘗試從平面文件轉移到hadoop。什麼是最好的工具?另外,我描述的索引方法可能嗎? – Fatima

+0

由於您正在將文件傳輸到hadoop,因此您可以即時對文件進行索引(使用Flume)或在mapreduce模式下對其進行索引。只要閱讀一次cloudera搜索,你就會知道。 – Amar

+0

非常感謝您提供此信息。我認爲cloudera搜索正是我需要的,但我想明確一些事情;安裝Cloudera搜索後,是否需要安裝任何其他工具才能完成任務?我是否需要再次安裝hadoop,ETL工具,solr等?另外,您能否告訴我這些工具中的每一個在從源文件中提取數據以及在處理後進行搜索的角色。 – Fatima

0

我建議使用彈性搜索或太陽能索引大數據。

相關問題