hive

    0熱度

    1回答

    我有更多的概念問題。我使用Hive來獲取數據,然後我想將所有檢索到的值插入到IBM BigSQL(基本上是DB2)中,以便聚合數據更容易/更快。所以我想在Hive中創建一個視圖,我將使用每晚執行CTAS的方式,以便我可以將表格遷移到db2並完成剩餘的聚合。 有沒有更好的做法? 我想盡一切辦法在Hive中進行聚合,但速度非常慢。 感謝您的建議!

    0熱度

    1回答

    在Hive shell中執行此操作時: select * from table_name limit 5需要18秒才能完成; 但是,當我寫這篇文章SparkSQL: table = hiveCtx.sql("select * from table_name") print table.head() 這是相同的,當我寫 table = hiveCtx.sql("select * from ta

    0熱度

    1回答

    wget http://www-us.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz --2017-08-16 23:52:17-- http://www-us.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz Resolving www-us.ap

    0熱度

    1回答

    如何對類似於mysql的配置單元查詢執行按位或操作。 例如在MySQL我們執行按位或爲: SELECT user_name, BIT_OR(file_permission) FROM user_permission GROUP BY user_name

    2熱度

    2回答

    我對每一行都有多個ID,我想提取每行中某些文本之後的數字。以下可能是我在id列中的值。 test123; tghy876; 8906; TT-1234 best123; tghy8656; 88706; TT-5678 我希望輸出只返回tt-之後的數字,所以我的輸出應該如下。 什麼蜂房代碼應該被用來實現這一目標?

    0熱度

    1回答

    我正在使用hive驅動程序,其中executeUpdate()記錄未返回受影響的記錄計數。有沒有其他方式可以獲得這種方式?我們需要獲得有效的記錄值以供進一步處理。

    0熱度

    1回答

    我要去計算超過其中其他數據經由group by room_id如下計算所有數據的百分位數: select distinct room_id, count(user_id) over (partition by room_id) as user_cnt, sum(price) over (partition by room_id) as price,

    -1熱度

    1回答

    Exception in thread "main" java.lang.NoClassDefFoundError: com/facebook/fb303/FacebookService$Iface at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClas

    1熱度

    1回答

    我使用配置單元與hadoop.Im尋找一個函數(hiveql),它允許有一天的最後/第一個值之間的差異。數據記錄每5分鐘(衡量或計數器增量)爲每個資源名稱,我想每個資源名稱(mac)具有每天一個值的聚合。 illustration

    1熱度

    2回答

    我的scenerio是 在我的項目中,我們從kafka每分鐘獲得200 msg,並需要使用avro格式存儲在配置單元表中。 如果我們使用插入腳本或每條消息,我認爲插入每條消息需要很長時間。 是否有任何想法,對於這種流式數據,我們必須使用哪種方式將其插入配置單元,並且具有良好的性能。 感謝您的幫助。