hive

0熱度

1回答

我需要從Pyspark讀取/寫入存儲在遠程Hive Server中的表格。我所知道的這個遠程Hive是在Docker下運行的。從Hadoop的色調，我發現了一個iris表兩個網址，我嘗試從選擇一些數據：我有一個表metastore網址： http://xxx.yyy.net:8888/metastore/table/mytest/iris 和表位置網址： hdfs://quickstart.

0熱度

1回答

我如何獲得Quarter到目前爲止上一季度在Hive SQL中的日期

我目前正在使用Hive SQL。我知道如何獲得當前季度日期，但是我很努力獲得上一個季度例如：今天是2017年9月5日當前季度迄今（QTD）是07/01/2017 - 09/05/2017。（2個月和5天）現在，我想得到以前的QTD，所以它應該給我 04/01/2017 - 06/05/2017（2個月和5天）。這樣我比較蘋果和蘋果。完全相同的日子。注：我有蜂巢SQL 的舊版本對於當前Q

0熱度

1回答

如何檢查兩個日期時間字段之間的一小時時差？

我有一個Hive查詢，我想檢查next_datetime和curr_datetime之間的差異不超過一個小時。如果我添加這個AND子句，那麼它檢查兩個日期時間是相同的小時。 <...> and hour(next_datetime) = hour(curr_datetime) 在幾分鐘內是否有任何時差表達？重要的是next_datetime和curr_datetime可能屬於不同的日期。

0熱度

1回答

用配置單元中的一個單元替換多個特定字符單元

我有一個數據集，其中的值除了分號的數量相同以外，其結果是不同的記錄。例如，如果在一列中一個記錄有一個; b; c，另一個記錄有一個;; b; c，這將禁用在我的代碼中使用不同的功能。我希望這被視爲重複的記錄，其中;;需要被替換; 我們怎樣才能取代多個;單身;在配置單元中的數據集中的字符串？

0熱度

1回答

如何使用蜂巢或豬

輸入 id,name,time 1,home,10:20 1,product,10:21 1,mobile,10:22 2,id,10:24 2,bag,10:30 2,home,10:21 3,keyboard,10:32 3,home,10:33 3,welcome,10:36 我要根據以下的輸出，使列名作爲源和目標，使行數據源和目標曲折。前面我與pig 嘗試的步驟是：

-1熱度

1回答

運行在Scala代碼多hiveQL語句

我想在我的火花驅動程序代碼來執行一組hiveQL語句，像下面 var res = hiveContext.sql("""use testdb;drop table temp;select ...") 當我執行這個代碼，它給了我一個錯誤說 Error: missing EOF near testdb 有人可以指我在哪裏，我錯了嗎？使用上述方法是否真的有可能執行多個陳述？此外，我試圖把我所有的報

0熱度

1回答

如何向Tez添加額外的庫來支持不同的HDFS後端？

當我使用MapReduce作爲Hive後面的執行引擎時，我可以使用備用後端到我的defaultFS.impl。使用類似的語法： LOCATION 'protocol://address:port/dir'; 我想用TEZ執行引擎，而不是MapReduce的，但不能揣摩出加我墊片庫（JAR文件），以便TEZ認識我新協議。這些進入哪個目錄？我需要將指令添加到tez-site.conf嗎？附加輸入：

1熱度

1回答

HIVE輸入大小的單位

當我執行的蜂巢，我得到從輸入數據大小的估計：1000。但是，我不知道它的單位。是B，KB還是GB？

2熱度

1回答

在DF上運行的視圖上的Spark sql查詢是什麼？

我在配置單元中創建了一個視圖，它是一個複雜的查詢（具有連接，聯合等）。當我在DF上執行查詢時，Catalyst & Tungsten工作還是100％配置？我想問的是 - 我可以得到查詢視圖正在執行，然後使用spark sql來執行查詢 - 與催化劑&鎢的改進？實施例： sqlContext.sql("select * from view") 視圖查詢上配置單元（蜂房上下文）運行，並且，以

-1熱度

1回答

如何在Hive中模擬BigQuery的分位數

我想模擬Hive中的BigQuery的QUANTILES函數。數據集：1,2,3,4 BigQuery的查詢結果將返回值2 選擇第n（2位數（COL1，3））但在蜂巢：選擇百分位數（COL1，0.5）我有2.5 注意：對於奇數個記錄我有相同的結果。有沒有足夠的Hive的udf函數？