我喜歡一個數據庫的方便,你可以更新就地行。但Hadoop依賴於能夠並行使用的序列文件。SequenceFile替代/擴展,允許就地更新
我喜歡HBase的想法,我只能重寫一行;以及被輸入到地圖縮減作業。但HBase不是一個新手必須惹的事,對吧?什麼是一個好的工具/方法呢?
我喜歡一個數據庫的方便,你可以更新就地行。但Hadoop依賴於能夠並行使用的序列文件。SequenceFile替代/擴展,允許就地更新
我喜歡HBase的想法,我只能重寫一行;以及被輸入到地圖縮減作業。但HBase不是一個新手必須惹的事,對吧?什麼是一個好的工具/方法呢?
我不認爲學習和使用HBase非常困難。
來到你原來的問題。我們使用HBase的原因與使用任何其他數據庫的原因相同,即random, real-time read/write access
,HDFS缺少像其他任何FS一樣的原因。這對任何文件系統都是如此,而不僅僅是HDFS。您可以將MySQL範例作爲示例。
而當你說在HBase中重寫它實際上不是更新。您可以將一個單元格的new version
或delete
單元格和put
新數據放在同一位置。
而且您不能說Hadoop依賴序列文件來爲您提供並行性。並行性是Hadoop憑藉其性質提供的,我是distributed platform
。您幾乎可以使用Hadoop幾乎任意類型的文件來處理並行性。序列文件的唯一優點是它們更適合於MapReduce processing
,因爲它們已經在key/vale pairs
中。
你必須把它用少許鹽,但坦率地說Hadoop的不理解更新。如果你能詳細闡述你的用例,也許我可以提出更好的建議。
HDFS的設計不支持就地更新。這就是爲什麼我們需要HBase – zsxwing