hive

0熱度

1回答

我們有一個要求，我們要創建一個用戶配置文件數據。這個配置文件數據/模式將隨着時間的推移而不斷髮展，越來越多的屬性將被添加到配置文件中。一些數據可能被刪除，更新和擴展。我想知道Hive + Avro是否適合這種用例（我認爲配置單元不是無模式，不支持模式演變 - 更適合不可變的數據）。 HBase/Cassandra會是一個不錯的選擇嗎？

-1熱度

2回答

配置單元中的樞軸/轉置

我想使用id計算總和和grouby，並將id轉換爲列標題和sum作爲值。例如 ID|amount 1|100 1|200 2|100 最終輸出 1|2 300|100 任何指針：我曾嘗試下面的查詢 select * from table pivot(sum(amount) for id in ("666","111")) 但得到以下錯誤，如果我看不到錯過了任何EOF org

0熱度

1回答

使用HiveThriftServer2與sqlContext的Spark 2.x

我的需求是啓用ODBC/JDBC訪問SparkSQL 臨時表，其中有一個Spark中的DataFrame（混合基於JSON和流）。我使它在Spark 1.6中工作，然後最近升級到Spark到2.1.1。我調整了我的代碼作爲this question中的第二個應答者。我注意到，對這一條款棄用警告，但是： val sqlContext = new org.apache.spark.sql.SQLCo

1熱度

1回答

在Hive表上合併重複記錄

我有下表獲取增量更新。我需要編寫一個普通的Hive查詢來合併具有相同鍵值和最新值的行。 Key | A | B | C | Timestamp K1 | X | Null | Null | 2015-05-03 K1 | Null | Y | Z | 2015-05-02 K1 | Foo | Bar | Baz | 2015-05-01 想要得到的： Key | A | B | C |

1熱度

2回答

如何從HIVE陣列<String>中提取單個列？

我必須在HIVE中從此數組中提取timeStamp列？ [{ 「時間戳」：1506411499989，「狀態」：「廣播」}]

0熱度

1回答

Athena：用LazySimpleSerde跳過標題行

想知道是否可以跳過Aws Athena的org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe中的標題行。我嘗試過tblproperties ('skip.header.line.count' = '1')，但不起作用。我的頭文件與OpenCSVSerDe協同工作，但它似乎只支持string數據類型，這將在查詢中結束很多工作。

0熱度

1回答

HIVE：查找運行總計

我有一個叫做計劃表，有以下欄目： ProgDate(Date) Episode(String) Impression_id(int) ProgName(String) 我想找出每個日期和事件總的印象，對此我有以下查詢這是工作的罰款 Select progdate, episode, count(distinct impression_id) Impression from Progr

-1熱度

1回答

如何總結BIGINT到時間戳蜂巢

我有兩列看起來像這樣在一個蜂巢表： Seconds_col Timestamp_col 87 2017-09-25 08:06:00.0 59 2017-09-25 08:10:00.0 我試圖創建另一個時間戳列是seconds_col + timestamp_col的總和，但我有問題搞清楚如何將類型爲BIGInt的seconds_col加入Timestamp_

0熱度

1回答

在Hive中。我可以分區（my_partition = some_function（））嗎？

我的目標是：處理昨天的數據，並把結果放到另一個表中。所以我寫了這個查詢，但partition(d=my_yesterday())似乎不工作。 insert overwrite table t1 partition(d=my_yesterday()) select my_udtf(a, b, c) as (e, f, g, h) from t2 where d=my_yest

0熱度

1回答

創建火花數據幀基於條件

我有2個數據幀： dataframe1具有70000行，如： location_id, location, flag 1,Canada,active 2,Paris,active 3,London,active 4,Berlin,active 對於每個位置二DF lookup已修改IDS（此數據幀被修改的時間到時間），像： id,location 1,Canada 10,Paris