hive

0熱度

1回答

我有更多的概念問題。我使用Hive來獲取數據，然後我想將所有檢索到的值插入到IBM BigSQL（基本上是DB2）中，以便聚合數據更容易/更快。所以我想在Hive中創建一個視圖，我將使用每晚執行CTAS的方式，以便我可以將表格遷移到db2並完成剩餘的聚合。有沒有更好的做法？我想盡一切辦法在Hive中進行聚合，但速度非常慢。感謝您的建議！

0熱度

1回答

帶有Hive數據源的SparkSQL將爲head（）執行全表掃描？

在Hive shell中執行此操作時： select * from table_name limit 5需要18秒才能完成; 但是，當我寫這篇文章SparkSQL： table = hiveCtx.sql("select * from table_name") print table.head() 這是相同的，當我寫 table = hiveCtx.sql("select * from ta

0熱度

1回答

請解釋如何解決這個錯誤

wget http://www-us.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz --2017-08-16 23:52:17-- http://www-us.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz Resolving www-us.ap

0熱度

1回答

是否可以在Hive中執行按位組功能？

如何對類似於mysql的配置單元查詢執行按位或操作。例如在MySQL我們執行按位或爲： SELECT user_name, BIT_OR(file_permission) FROM user_permission GROUP BY user_name

2熱度

2回答

在配置單元中的字符串中的某些字符後提取文本

我對每一行都有多個ID，我想提取每行中某些文本之後的數字。以下可能是我在id列中的值。 test123; tghy876; 8906; TT-1234 best123; tghy8656; 88706; TT-5678 我希望輸出只返回tt-之後的數字，所以我的輸出應該如下。什麼蜂房代碼應該被用來實現這一目標？

0熱度

1回答

如何從Hive獲取更新記錄的計數

我正在使用hive驅動程序，其中executeUpdate()記錄未返回受影響的記錄計數。有沒有其他方式可以獲得這種方式？我們需要獲得有效的記錄值以供進一步處理。

0熱度

1回答

蜂巢百分位數（）以上（）需要按

我要去計算超過其中其他數據經由group by room_id如下計算所有數據的百分位數： select distinct room_id, count(user_id) over (partition by room_id) as user_cnt, sum(price) over (partition by room_id) as price,

-1熱度

1回答

在JAVA中使用JAVA創建表

Exception in thread "main" java.lang.NoClassDefFoundError: com/facebook/fb303/FacebookService$Iface at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClas

1熱度

1回答

Hiveql聚合：兩個值之間的差異

我使用配置單元與hadoop.Im尋找一個函數（hiveql），它允許有一天的最後/第一個值之間的差異。數據記錄每5分鐘（衡量或計數器增量）爲每個資源名稱，我想每個資源名稱（mac）具有每天一個值的聚合。 illustration

1熱度

2回答

將流媒體數據插入配置單元

我的scenerio是在我的項目中，我們從kafka每分鐘獲得200 msg，並需要使用avro格式存儲在配置單元表中。如果我們使用插入腳本或每條消息，我認爲插入每條消息需要很長時間。是否有任何想法，對於這種流式數據，我們必須使用哪種方式將其插入配置單元，並且具有良好的性能。感謝您的幫助。