我試圖索引和存儲大數據,我對使用什麼工具感到困惑。讓我首先說我是一個新手,並且只有關於這個主題的理論知識。我想:什麼是我的索引和處理大數據的正確工具?
1)使用的Hadoop(明確)
2)使用三種不同的PC
3)變換數據,以結構化形式和負載在HDFS用於索引從平面文件提取的日誌數據和mapreduce的。
我的問題是:
一)在試圖指標三個方面,是有可能映射指數-地圖索引地圖索引減少?如果不是,索引編制如何完成?如果可能的話順序解釋(例如index-map-reduce)
b)什麼是從提取到存儲的正確工具?
c)可以使用Hadoop進行簡單搜索,還是必須使用其他工具(如lucene/solr)?
d)在通過MapReduce階段之前,必須將數據轉換爲結構化形式,例如使用PDI?
大話題,沒有「簡單」的答案。建議:Google:Hadoop開源分析 – FoggyDay