hive

    0熱度

    1回答

    我們有一個要求,我們要創建一個用戶配置文件數據。這個配置文件數據/模式將隨着時間的推移而不斷髮展,越來越多的屬性將被添加到配置文件中。一些數據可能被刪除,更新和擴展。我想知道Hive + Avro是否適合這種用例(我認爲配置單元不是無模式,不支持模式演變 - 更適合不可變的數據)。 HBase/Cassandra會是一個不錯的選擇嗎?

    -1熱度

    2回答

    我想使用id計算總和和grouby,並將id轉換爲列標題和sum作爲值。 例如 ID|amount 1|100 1|200 2|100 最終輸出 1|2 300|100 任何指針: 我曾嘗試下面的查詢 select * from table pivot(sum(amount) for id in ("666","111")) 但得到以下錯誤,如果我看不到錯過了任何EOF org

    0熱度

    1回答

    我的需求是啓用ODBC/JDBC訪問SparkSQL 臨時表,其中有一個Spark中的DataFrame(混合基於JSON和流)。 我使它在Spark 1.6中工作,然後最近升級到Spark到2.1.1。我調整了我的代碼作爲this question中的第二個應答者。我注意到,對這一條款棄用警告,但是: val sqlContext = new org.apache.spark.sql.SQLCo

    1熱度

    1回答

    我有下表獲取增量更新。我需要編寫一個普通的Hive查詢來合併具有相同鍵值和最新值的行。 Key | A | B | C | Timestamp K1 | X | Null | Null | 2015-05-03 K1 | Null | Y | Z | 2015-05-02 K1 | Foo | Bar | Baz | 2015-05-01 想要得到的: Key | A | B | C |

    1熱度

    2回答

    我必須在HIVE中從此數組中提取timeStamp列? [{ 「時間戳」:1506411499989, 「狀態」: 「廣播」}]

    0熱度

    1回答

    想知道是否可以跳過Aws Athena的org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe中的標題行。我嘗試過tblproperties ('skip.header.line.count' = '1'),但不起作用。我的頭文件與OpenCSVSerDe協同工作,但它似乎只支持string數據類型,這將在查詢中結束很多工作。

    0熱度

    1回答

    我有一個叫做計劃表,有以下欄目: ProgDate(Date) Episode(String) Impression_id(int) ProgName(String) 我想找出每個日期和事件總的印象,對此我有以下查詢這是工作的罰款 Select progdate, episode, count(distinct impression_id) Impression from Progr

    -1熱度

    1回答

    我有兩列看起來像這樣在一個蜂巢表: Seconds_col Timestamp_col 87 2017-09-25 08:06:00.0 59 2017-09-25 08:10:00.0 我試圖創建另一個時間戳列是seconds_col + timestamp_col的總和,但我有問題搞清楚如何將類型爲BIGInt的seconds_col加入Timestamp_

    0熱度

    1回答

    我的目標是: 處理昨天的數據,並把結果放到另一個表中。 所以我寫了這個查詢,但partition(d=my_yesterday())似乎不工作。 insert overwrite table t1 partition(d=my_yesterday()) select my_udtf(a, b, c) as (e, f, g, h) from t2 where d=my_yest

    0熱度

    1回答

    我有2個數據幀: dataframe1具有70000行,如: location_id, location, flag 1,Canada,active 2,Paris,active 3,London,active 4,Berlin,active 對於每個位置二DF lookup已修改IDS(此數據幀被修改的時間到時間),像: id,location 1,Canada 10,Paris