hive

    0熱度

    1回答

    在我的用例中,我有一個包含10萬條記錄的配置單元表。每個記錄代表一個必須處理的原始數據文件。處理每個原始數據文件會生成一個csv文件,其大小將在10MB到500MB之間變化。最終,這些CSV文件將作爲單獨的進程填充到HIVE表中。在我的企業集羣中,仍然不建議在hdfs中生成大量的數據。因此,我更願意將這兩個單獨的流程合併爲一個流程,以便他們處理5000條記錄的5000條記錄。 我的問題: - 鑑於

    0熱度

    1回答

    我有一個基於Avro的外部Hive表。 | CREATE EXTERNAL TABLE `temp_avro`( | | `string1` string COMMENT '') | | PARTITIONED BY ( | | `string2` string) | | ROW FORMAT SERDE | | 'org.a

    -1熱度

    1回答

    我試圖執行一個查詢,該函數的功能類似於lead .. over ..分區和Union。當我試圖在impala上運行它時,此查詢效果很好,但在Hive上失敗。 我需要編寫一個執行此查詢星火工作。它在SparkSQL中也失敗了,我的假設是因爲Spark 1.6在內部使用HiveQL來完成上述任務。 有一些不同的方式來讀取SparkSQL黑斑羚表?因爲在Hive中工作的基本查詢和Both都可以很好地與S

    0熱度

    1回答

    使用Beeline我能夠成功連接。 !connect jdbc:hive2://xxxxxxx/;serviceDiscoveryMode=zookeeper;zookeeperNameSpace=hiveserver2 當我開始使用Java JDBC代碼有相同的URL得到下面的錯誤。 錯誤日誌: Exception in thread "main" java.sql.SQLException

    0熱度

    2回答

    我正在閱讀一些Hive QL腳本,發現這行: SELECT'Start time:',from_unixtime(unix_timestamp()); 這是什麼意思?它看起來不像一個真正的「選擇」聲明?

    1熱度

    1回答

    我有一個兩列的配置單元表。兩欄的類型都是字符串。一個是簡單的客戶端ID,另一個是命令分離的項目ID字符串。可以有多個具有相同客戶端ID但具有不同項目ID字符串的行。 我想要一個生成帶有兩列的表的配置單元查詢。一個是客戶端ID,另一個是逗號分隔的字符串與所有唯一的項目ID。 數據在原表: Client Id Item Ids 1 1,2,3,4 2 3,4,6,8 4 4,

    0熱度

    1回答

    我創建了一個配置單元表,並試圖找到配置單元在本地爲該表創建了hdfs文件的位置。 Hive版本是2.3.0。 我想這個命令來找回我的表 hive> describe formatted table_name; 我得到這個作爲輸出的位置(只顯示相關的輸出!TB2在這種情況下,表名) Location: hdfs://localhost:54310/user/hive/warehouse/t

    0熱度

    1回答

    我正在使用SqlServer數據庫並需要連接到Hive數據庫。最終目標是能夠將數據從SqlServer推送到Hive表。通過Sqoop從Hive連接到SqlServer不是一個選項。我怎麼做到這一點?

    0熱度

    1回答

    重命名攝入的文件我們有一個AWS S3存儲桶,我們可以以10分鐘的時間間隔獲取新的CSV文件。目標是將這些文件攝入Hive。 所以對我來說顯而易見的方式是使用Apache Flume爲此並使用Spooling Directory來源,它將不斷尋找登陸目錄中的新文件並將它們攝入Hive中。 我們有read-only權限S3存儲桶和登陸目錄中的文件將被複制和Flume後綴攝入文件後綴.COMPLETE

    0熱度

    2回答

    可以解釋HiveQL中這兩個查詢之間的區別。基本上我想從table a過濾掉日期大於2017-05-01。第二個查詢沒有給出我預期的結果,但是第一個查詢得到了結果。我以爲他們是相當於 select a.user_id , b.user_id , a.event_date , b.event_date , to_date(a.event_date) from default.t1 as a