2013-06-13 37 views
0

我喜歡一個數據庫的方便,你可以更新就地行。但Hadoop依賴於能夠並行使用的序列文件。SequenceFile替代/擴展,允許就地更新

我喜歡HBase的想法,我只能重寫一行;以及被輸入到地圖縮減作業。但HBase不是一個新手必須惹的事,對吧?什麼是一個好的工具/方法呢?

+0

HDFS的設計不支持就地更新。這就是爲什麼我們需要HBase – zsxwing

回答

1

我不認爲學習和使用HBase非常困難。

來到你原來的問題。我們使用HBase的原因與使用任何其他數據庫的原因相同,即random, real-time read/write access,HDFS缺少像其他任何FS一樣的原因。這對任何文件系統都是如此,而不僅僅是HDFS。您可以將MySQL範例作爲示例。

而當你說在HBase中重寫它實際上不是更新。您可以將一個單元格的new versiondelete單元格和put新數據放在同一位置。

而且您不能說Hadoop依賴序列文件來爲您提供並行性。並行性是Hadoop憑藉其性質提供的,我是distributed platform。您幾乎可以使用Hadoop幾乎任意類型的文件來處理並行性。序列文件的唯一優點是它們更適合於MapReduce processing,因爲它們已經在key/vale pairs中。

你必須把它用少許鹽,但坦率地說Hadoop的不理解更新。如果你能詳細闡述你的用例,也許我可以提出更好的建議。