hiveql

0熱度

1回答

我有一個相當複雜的查詢，需要花費很多時間才能完成。但是，表具有分區，如果在每個分區上獨立執行此查詢，實際上結果都可以。這種方式將被限制在較小的數據部分，這對我來說很好。是否可以在每個分區上獨立執行此類查詢？

0熱度

1回答

我使用hivexml serde解析嵌套的xml文件，但它在我們從配置元表中選擇數據時返回null。示例xml文件是xml data。查詢我爲解析xml而創建的。 CREATE EXTERNAL TABLE IF NOT EXISTS abc (mail string, Type string, Id bigint, Date string, LId bigint, value string)

0熱度

2回答

什麼數據類型用於配置單元中的IP地址？

我創建與IP地址列的列數據表， create table test (id int,name string,ip_adress string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ ; ，所以我會用什麼樣的數據類型來定義ip_adress列？我試過字符串，二進制&數組數據類型，沒有任何工作。

0熱度

1回答

使用bash向可變數量的字段發送配置單元腳本

我通過使用bash腳本將csvs移動到HDFS並在其上構建外部Hive表來自動執行數據管道。目前，這隻適用於在.hql文件中預定義表格的格式。但我希望能夠從CSV中讀取標題並將它們作爲參數發送給Hive。所以，我目前通過的文件做一個循環中： # bash hive -S -hiveconf VAR1=$target_db -hiveconf VAR2=$filename -hiveconf VA

0熱度

1回答

在蜂巢表基於一個子查詢

我試圖添加分區蜂巢表（按日期分區）我的問題是，日期需要從另一個表獲取加分。我的查詢是這樣的： ALTER TABLE MY_TABLE ADD IF NOT EXISTS PARTITION（server_date =（SELECT MAX（server_date）FROM processed_table））; 當我運行查詢蜂巢引發以下錯誤：錯誤：錯誤在編譯聲明：失敗：ParseExcept

1熱度

2回答

如何傳遞多個參數蜂巢腳本

員工： Table data 我想通過運行蜂巢腳本sample.hql去取年= 2016的記錄。 use octdb; select * from '${hiveconf:table}' where year = '${hiveconf:year}'; [[email protected] ~]$ hive -hiveconf table='employee', year=2016 -f s

1熱度

1回答

月在MM在蜂巢

Select * from concat(YEAR(DATE_SUB(MAX(Column_name),60),MONTH(DATE_SUB(MAX(Column_name),60),-01) 的month()產量僅單位使用一個月（）數月至九月即一月返回1而不是01。在處理這件事上需要幫助。我正在使用此輸出來提供使用TO_DATE的另一個SELECT查詢。

1熱度

1回答

使用Hive-JSON-SerDe添加數據查詢

我正在使用配置單元，我需要以json格式添加數據。我使用https://github.com/rcongiu/Hive-JSON-Serde庫。它從文件加載配置單元中的數據。 ~$ cat test.json {"text":"foo","number":123} {"text":"bar","number":345} $ hadoop fs -put -f test.json /use

0熱度

3回答

如何從文件中使用蜂巢

刪除^ A和\ n我得到一個臨時table.I的數據是從臨時表中選擇所有列的數據，並插入到基座table.After插入到基表文件看起來像下面。 val1^Aval2^Aval3^A\N^Aval4^A\N 但我需要的數據是這樣的。 val1 val2 val3 val4 ^必須從文件中刪除，\ N應該用空格替換。我想在蜂巢中實現這一點，任何幫助都很感激。

0熱度

1回答

配置單元，在數組中連接2個表格

我需要在數組中逐列左外連接2個表。表一個模型：結構ID - 串 IPS - 串表2模型的陣列： - 串主機名 IP - 字符串我希望的結果是在格式：號，IP，主機名（如果存在）所有的在第一表的陣列，其具有相應的IP在所述第二表中的IP需要匹配。我不確定如何開始，歡迎任何想法或參考。