hive

    0熱度

    1回答

    我需要從Pyspark讀取/寫入存儲在遠程Hive Server中的表格。我所知道的這個遠程Hive是在Docker下運行的。從Hadoop的色調,我發現了一個iris表兩個網址,我嘗試從選擇一些數據: 我有一個表metastore網址: http://xxx.yyy.net:8888/metastore/table/mytest/iris 和表位置網址: hdfs://quickstart.

    0熱度

    1回答

    我目前正在使用Hive SQL。我知道如何獲得當前季度日期,但是我很努力獲得上一個季度 例如: 今天是2017年9月5日 當前季度迄今(QTD)是07/01/2017 - 09/05/2017。 (2個月和5天) 現在,我想得到以前的QTD,所以它應該給我 04/01/2017 - 06/05/2017(2個月和5天)。這樣我比較蘋果和蘋果。完全相同的日子。 注:我有蜂巢SQL 的舊版本對於當前Q

    0熱度

    1回答

    我有一個Hive查詢,我想檢查next_datetime和curr_datetime之間的差異不超過一個小時。 如果我添加這個AND子句,那麼它檢查兩個日期時間是相同的小時。 <...> and hour(next_datetime) = hour(curr_datetime) 在幾分鐘內是否有任何時差表達?重要的是next_datetime和curr_datetime可能屬於不同的日期。

    0熱度

    1回答

    我有一個數據集,其中的值除了分號的數量相同以外,其結果是不同的記錄。 例如,如果在一列中一個記錄有一個; b; c,另一個記錄有一個;; b; c,這將禁用在我的代碼中使用不同的功能。我希望這被視爲重複的記錄,其中;;需要被替換; 我們怎樣才能取代多個;單身;在配置單元中的數據集中的字符串?

    0熱度

    1回答

    輸入 id,name,time 1,home,10:20 1,product,10:21 1,mobile,10:22 2,id,10:24 2,bag,10:30 2,home,10:21 3,keyboard,10:32 3,home,10:33 3,welcome,10:36 我要根據以下的輸出,使列名作爲源和目標,使行數據源和目標曲折。 前面我與pig 嘗試的步驟是:

    -1熱度

    1回答

    我想在我的火花驅動程序代碼來執行一組hiveQL語句,像下面 var res = hiveContext.sql("""use testdb;drop table temp;select ...") 當我執行這個代碼,它給了我一個錯誤說 Error: missing EOF near testdb 有人可以指我在哪裏,我錯了嗎?使用上述方法是否真的有可能執行多個陳述? 此外,我試圖把我所有的報

    0熱度

    1回答

    當我使用MapReduce作爲Hive後面的執行引擎時,我可以使用備用後端到我的defaultFS.impl。使用類似的語法: LOCATION 'protocol://address:port/dir'; 我想用TEZ執行引擎,而不是MapReduce的,但不能揣摩出加我墊片庫(JAR文件),以便TEZ認識我新協議。 這些進入哪個目錄?我需要將指令添加到tez-site.conf嗎? 附加輸入:

    1熱度

    1回答

    當我執行的蜂巢,我得到 從輸入數據大小的估計:1000。 但是,我不知道它的單位。 是B,KB還是GB?

    2熱度

    1回答

    我在配置單元中創建了一個視圖,它是一個複雜的查詢(具有連接,聯合等)。 當我在DF上執行查詢時,Catalyst & Tungsten工作還是100%配置? 我想問的是 - 我可以得到查詢視圖正在執行,然後使用spark sql來執行查詢 - 與催化劑&鎢的改進? 實施例: sqlContext.sql("select * from view") 視圖查詢上配置單元(蜂房上下文)運行,並且,以

    -1熱度

    1回答

    我想模擬Hive中的BigQuery的QUANTILES函數。 數據集:1,2,3,4 BigQuery的查詢結果將返回值2 選擇第n(2位數(COL1,3)) 但在蜂巢: 選擇百分位數(COL1,0.5) 我有2.5 注意:對於奇數個記錄我有相同的結果。 有沒有足夠的Hive的udf函數?