我一直在閱讀有關的map/reduce,這樣我可以提高我的大數據處理技術的理解,但我在幾件事情有點不清楚:有關地圖的一些問題/減少概念
即使使用10個worker/threads/machines/cpus/whatever操作大型數據集,是不是
map
函數仍然會很慢?例如,如果數據集有十億條記錄,這意味着每個工作者仍需要迭代超過1億條記錄,並且該變換仍需要存儲在某處進行處理。如何將數據因素的索引導入地圖/縮小場景(如果有的話)?
作爲獎勵的問題,我想要做的是產生實時(< 100毫秒響應時間)超過已在20-50萬條記錄的區域數據集的搜索解決方案並且可以在1-3個字段上排序結果,並在嵌套的,分組的AND/OR查詢中查詢大約20-30個不同的字段。 map/reduce可能是我正在做的最好的方法嗎?
謝謝,實際上我已經投入了相當多的時間,但還有更多要學習和弄清楚。當我有時間的時候,我可能會在某個時候寫一篇文章。 – 2012-02-21 16:04:06