2013-07-18 150 views
1

嗨,我是一個新來的傢伙。豬需要很長時間才能扎進Hbase

最近,我把大量的文本文件放到HDFS中。 我想要做的是讀取這些文件,並將它們放入使用Pig(LOAD,STORE)的HBase中。 但是,我發現存儲到HBase需要很長時間。

以前有人遇到類似的情況嗎?如果是,如何解決這個問題?

謝謝

回答

0

所用的時間取決於您擁有的節點數量以及顯然文件大小。 我認爲它更好地檢查你的輸入數據集中的節點數/ dfs大小。

+0

對我來說,有三個數據節點,每個文件的大小約爲15 MB。我試着看看HBaseStorage.java,並發現Pig用來把數據存儲到HBase中。有什麼解決方案來加速這部分行動? –

1

我在使用HBaseStorage時遇到同樣的問題。實際上,HbaseStorage執行順序PUT操作來將數據加載到HBase中。它不是真正的大容量負載。看到這個未解決的Jira。 https://issues.apache.org/jira/browse/PIG-2921

,但我得到使用ImportTSV選項後顯著的性能差異。 http://hbase.apache.org/book/ops_mgt.html#importtsv

堆積負載涉及三個步驟 1.豬:從源讀數據,在HBASE表結構,負載到HDFS格式。 2. ImportTsv:準備通過completebulkload加載的StoreFiles。 3.完整負載:將生成的StoreFiles移動到HBase表中。 (這就像切害蟲)

希望這是有用的:)

相關問題