嗨,我是一個新來的傢伙。豬需要很長時間才能扎進Hbase
最近,我把大量的文本文件放到HDFS中。 我想要做的是讀取這些文件,並將它們放入使用Pig(LOAD,STORE)的HBase中。 但是,我發現存儲到HBase需要很長時間。
以前有人遇到類似的情況嗎?如果是,如何解決這個問題?
謝謝
嗨,我是一個新來的傢伙。豬需要很長時間才能扎進Hbase
最近,我把大量的文本文件放到HDFS中。 我想要做的是讀取這些文件,並將它們放入使用Pig(LOAD,STORE)的HBase中。 但是,我發現存儲到HBase需要很長時間。
以前有人遇到類似的情況嗎?如果是,如何解決這個問題?
謝謝
所用的時間取決於您擁有的節點數量以及顯然文件大小。 我認爲它更好地檢查你的輸入數據集中的節點數/ dfs大小。
我在使用HBaseStorage時遇到同樣的問題。實際上,HbaseStorage執行順序PUT操作來將數據加載到HBase中。它不是真正的大容量負載。看到這個未解決的Jira。 https://issues.apache.org/jira/browse/PIG-2921
,但我得到使用ImportTSV選項後顯著的性能差異。 http://hbase.apache.org/book/ops_mgt.html#importtsv
堆積負載涉及三個步驟 1.豬:從源讀數據,在HBASE表結構,負載到HDFS格式。 2. ImportTsv:準備通過completebulkload加載的StoreFiles。 3.完整負載:將生成的StoreFiles移動到HBase表中。 (這就像切害蟲)
希望這是有用的:)
對我來說,有三個數據節點,每個文件的大小約爲15 MB。我試着看看HBaseStorage.java,並發現Pig用來把數據存儲到HBase中。有什麼解決方案來加速這部分行動? –