2013-07-16 75 views
0

我使用Hive來查詢我擁有的數據。問題是,這些數據需要清理,對我來說,在我的計算機上進行處理(因此使用Hadoop和Hive)方式太大了。有沒有辦法讓我用Hive來做到這一點?我研究了用戶定義的函數,但我的理解是它們逐行操作,因此可能不是清理數據的最佳方式。使用Hive清理大數據

謝謝

回答

2

您應該使用MapReduce程序清理您的數據。可能連一個減速機都不會增加你的性能。

MapReduce程序就像一個緩衝文件閱讀器,一次讀取一行數據。您可以在每行上執行清理操作,然後將其插入配置單元表中進行查詢。

1
what is your data size? 
what is your cleaning operation? 

如果您的清潔操作不能在Hive的幫助下完成,那麼只能使用mapreduce/pig。

如果您的問題是配置單元的性能,請嘗試優化它。

優化取決於您的清潔operation.you可以使用distribution cachemap side joins等等

+1

謝謝回答我。我最終使用流清理數據 –