我使用Hive來查詢我擁有的數據。問題是,這些數據需要清理,對我來說,在我的計算機上進行處理(因此使用Hadoop和Hive)方式太大了。有沒有辦法讓我用Hive來做到這一點?我研究了用戶定義的函數,但我的理解是它們逐行操作,因此可能不是清理數據的最佳方式。使用Hive清理大數據
謝謝
我使用Hive來查詢我擁有的數據。問題是,這些數據需要清理,對我來說,在我的計算機上進行處理(因此使用Hadoop和Hive)方式太大了。有沒有辦法讓我用Hive來做到這一點?我研究了用戶定義的函數,但我的理解是它們逐行操作,因此可能不是清理數據的最佳方式。使用Hive清理大數據
謝謝
您應該使用MapReduce程序清理您的數據。可能連一個減速機都不會增加你的性能。
MapReduce程序就像一個緩衝文件閱讀器,一次讀取一行數據。您可以在每行上執行清理操作,然後將其插入配置單元表中進行查詢。
what is your data size?
what is your cleaning operation?
如果您的清潔操作不能在Hive的幫助下完成,那麼只能使用mapreduce/pig。
如果您的問題是配置單元的性能,請嘗試優化它。
優化取決於您的清潔operation.you可以使用distribution cache
,map side joins
等等
謝謝回答我。我最終使用流清理數據 –