2013-11-14 117 views
1

我們計劃將現有應用程序遷移到hadoop。我們目前使用很多查找表/文件作爲參考。Hadoop查找商店選項

什麼應該是這樣的表/文件存儲在Hadoop中的生態系統

1)創建蜂巢/ HBase的查找表 將它需要獨立的先生工作剛剛加入這個查找文件的最佳選擇?

2)HDFS文件中使用的參考查找

而且我們應該採取對查找表的大小這個決定?

回答

0

如果數據的大小很小,則可以使用Distributed Cache。查找數據將被複制到所有需要執行的節點。

在使用數據庫存儲查找值時,請考慮映射器/縮減器將對數據庫建立的連接數。

1

選擇最佳選擇取決於許多因素,如數據的大小和性質,網絡基礎設施..等等。您可以考慮以下選項:

  • 的數據複製到分佈式緩存,以便節點可以在 加載到一個HashMap
  • 映射器/減速器內使用的鍵/值存儲。例如:Redis, HBase or Voldemort
    請注意,DB訪問可能導致巨大的性能降低。
  • 將查找數據存儲在HDFS上,並在需要時將其加入到您正在處理的數據集中。在這裏可以使用Hadoop的更高層次的抽象。

如果您打算使用鍵值存儲,我建議您查看Voldemort這實際上是分佈式hashtabe。 您可以通過簡單的Hadoop作業來填充其商店(read-only store功能)。