hive

    0熱度

    2回答

    我有一個按列插入時間進行分區的配置單元表。 我有一個pyspark數據框,除了分區列以外,它有與表相同的列。 下效果很好,當該表未分區: df.insertInto('tablename',overwrite=True) 但我無法從pyspark弄清楚如何插入到特定的分區 如下嘗試: df.insertInto('tablename',overwrite=True,partition(inse

    0熱度

    1回答

    我在放置在HDFS目錄中的.txt文件上創建配置單元表。在訪問數據時,它顯示最後一個日期時間列(order_dtm)的輸出爲NULL。我搜索並嘗試了谷歌提供的其他選項,但迄今爲止沒有任何工作。 蜂巢查詢:---製表符分隔 Create EXTERNAL table Orders( order_id int, cust_id int, order_dtm TIMESTAM

    -1熱度

    1回答

    我有日期和時間組織CSV文件如下 logs/YYYY/MM/DD/CSV files... 我有安裝的Apache鑽取到這些CSV文件之上執行SQL查詢。由於有許多CSV文件,可以利用文件的組織來優化性能。例如, SELECT * from data where trans>='20170101' AND trans<'20170102'; 在此SQL中,目錄logs/2017/01/01

    0熱度

    1回答

    我使用pyhive連接到hive(3.5)。代碼如下。 from pyhive import hive conn=hive.connect(host='localhost',port=10000,database='database') 第二行中出錯如下: File "/Users/chenjiahui/anaconda/lib/python3.5/site-packages/thrift

    0熱度

    1回答

    JSON數據是這樣的: {"id":"U101", "name":"Rakesh", "place":{"city":"MUMBAI","state":"MAHARASHTRA"}, "age":20, "occupation":"STUDENT"} {"id":"","name":"Rakesh", "place":{"city":"MUMBAI","state":"MAHARASHTRA"}

    1熱度

    1回答

    我試圖在每次運行之前在配置單元中初始化數據庫。 的代碼是: command="hive -e \"drop database if exists some_db cascade; create database some_db\""; eval $command; 執行失敗,錯誤: FAILED: Execution Error, return code 1 from org.apache.

    1熱度

    1回答

    我試圖用氣流腳本來運行存在於雲存儲HQL文件,有兩個參數,通過它我們可以通過DataprocHiveOperator路徑: 查詢: 'GS://bucketpath/filename.q' Error occuring - cannot recognize input near 'gs' ':' '/' query_uri: 'GS://bucketpath/filename.q' Error o

    0熱度

    1回答

    只是一個簡單的問題。我試圖執行一個1.6.0版本的Spark程序,該程序利用Hive Table上的併發加載。在hiveContext.sql("insert . . .")中使用insert語句是一種方法,因爲我想在寫入過程中確保表鎖定,因爲從我在Spark文檔表中看到的表鎖定和原子性在使用DataFrame進行保存操作時無法保證。 「保存操作可以選擇乘坐SaveMode,即 指定如何處理如果存

    0熱度

    1回答

    我想獲取非現有的數據爲空使用外部爆炸蜂巢中,但我的查詢不返回任何東西。 編輯: 表 - 年線,companyrank year:string,topcompanies:array<struct<name:string,rank:string>> 樣本數據 編輯: 2015, "topcompanies":[ {"name":"apple","rank":"1"},

    0熱度

    1回答

    喜用SERDE的我是初學者蜂房,我發現下面的示例代碼中的一個,可以有人幫助我理解下面的代碼: CREATE EXTERNAL TABLE emp ( id bigint, name string, dept bigint, salary bigint) partitioned by (yearofjoining string) ROW FORMAT SERDE