hive

0熱度

1回答

在我的用例中，我有一個包含10萬條記錄的配置單元表。每個記錄代表一個必須處理的原始數據文件。處理每個原始數據文件會生成一個csv文件，其大小將在10MB到500MB之間變化。最終，這些CSV文件將作爲單獨的進程填充到HIVE表中。在我的企業集羣中，仍然不建議在hdfs中生成大量的數據。因此，我更願意將這兩個單獨的流程合併爲一個流程，以便他們處理5000條記錄的5000條記錄。我的問題： - 鑑於

0熱度

1回答

Spark avro insertInto文件擴展

-1熱度

1回答

使用SparkSQL閱讀Impala表

我試圖執行一個查詢，該函數的功能類似於lead .. over ..分區和Union。當我試圖在impala上運行它時，此查詢效果很好，但在Hive上失敗。我需要編寫一個執行此查詢星火工作。它在SparkSQL中也失敗了，我的假設是因爲Spark 1.6在內部使用HiveQL來完成上述任務。有一些不同的方式來讀取SparkSQL黑斑羚表？因爲在Hive中工作的基本查詢和Both都可以很好地與S

0熱度

1回答

使用Java JDBC訪問Hive問題 - 無法從ZooKeeper讀取HiveServer2 uri

使用Beeline我能夠成功連接。 !connect jdbc:hive2://xxxxxxx/;serviceDiscoveryMode=zookeeper;zookeeperNameSpace=hiveserver2 當我開始使用Java JDBC代碼有相同的URL得到下面的錯誤。錯誤日誌： Exception in thread "main" java.sql.SQLException

0熱度

2回答

SELECT對Hive的疑問SQL

我正在閱讀一些Hive QL腳本，發現這行： SELECT'Start time：'，from_unixtime（unix_timestamp（））; 這是什麼意思？它看起來不像一個真正的「選擇」聲明？

1熱度

1回答

如何分割逗號分隔的字符串並收集蜂巢中的唯一值？

我有一個兩列的配置單元表。兩欄的類型都是字符串。一個是簡單的客戶端ID，另一個是命令分離的項目ID字符串。可以有多個具有相同客戶端ID但具有不同項目ID字符串的行。我想要一個生成帶有兩列的表的配置單元查詢。一個是客戶端ID，另一個是逗號分隔的字符串與所有唯一的項目ID。數據在原表： Client Id Item Ids 1 1,2,3,4 2 3,4,6,8 4 4,

0熱度

1回答

哪裏hive在本地存儲表？

我創建了一個配置單元表，並試圖找到配置單元在本地爲該表創建了hdfs文件的位置。 Hive版本是2.3.0。我想這個命令來找回我的表 hive> describe formatted table_name; 我得到這個作爲輸出的位置（只顯示相關的輸出！TB2在這種情況下，表名） Location: hdfs://localhost:54310/user/hive/warehouse/t

0熱度

1回答

從SqlServer將數據推送到Hive

我正在使用SqlServer數據庫並需要連接到Hive數據庫。最終目標是能夠將數據從SqlServer推送到Hive表。通過Sqoop從Hive連接到SqlServer不是一個選項。我怎麼做到這一點？

0熱度

1回答

如何將Apache Flume配置爲不使用.COMPLETE

重命名攝入的文件我們有一個AWS S3存儲桶，我們可以以10分鐘的時間間隔獲取新的CSV文件。目標是將這些文件攝入Hive。所以對我來說顯而易見的方式是使用Apache Flume爲此並使用Spooling Directory來源，它將不斷尋找登陸目錄中的新文件並將它們攝入Hive中。我們有read-only權限S3存儲桶和登陸目錄中的文件將被複制和Flume後綴攝入文件後綴.COMPLETE

0熱度

2回答

混淆'和'過濾內部

可以解釋HiveQL中這兩個查詢之間的區別。基本上我想從table a過濾掉日期大於2017-05-01。第二個查詢沒有給出我預期的結果，但是第一個查詢得到了結果。我以爲他們是相當於 select a.user_id , b.user_id , a.event_date , b.event_date , to_date(a.event_date) from default.t1 as a