hive

1熱度

2回答

我一直在考慮如何在Hive中執行此操作。例如，我在我想提取的日誌文件中有一個特定的字段（這已經可以在Hive中實現），然後我想將該字段的值映射到其他值。該映射由自定義的業務邏輯確定，該業務邏輯在Java類中編碼。如何在Hive中使用此Java類？

28熱度

3回答

Hive是否具有字符串拆分功能？

我正在尋找Hive中的內置字符串拆分函數？例如如果字符串是 A | B | C | d |電子然後我想有像陣列分裂的功能（字符串輸入，字符分隔符）使得我回來[A， B，C，d，E]。 Hive中是否存在這樣的內置分割函數？我只能看到regexp_extract和regexp_replace。我很想看到一個indexOf（）和split（）字符串函數。感謝阿賈伊

12熱度

4回答

將多個行插入一個空格分隔字符串

所以我有5行這樣 userid, col -------------- 1, a 1, b 2, c 2, d 3, e 我會怎麼做查詢，使其看起來像這樣 userid, combined 1, a b 2, c d 3, e

2熱度

1回答

最長前綴匹配

在MySQL可以匹配「12684041234」的最長前綴你會做 SELECT num_prefix FROM nums WHERE '12684041234' LIKE CONCAT(num_prefix, '%') AND LENGTH(num_prefix) = ( SELECT MAX(LENGTH(num_prefix)) FROM nums WHERE

4熱度

1回答

使用Hive與Pig

我的配置單元查詢有多個外部連接，需要很長時間才能執行。我想知道是否將它分解成多個較小的查詢並使用豬進行轉換是有意義的。有沒有一種方法可以查詢配置單元表或讀取豬腳本中的配置單元表數據？感謝

2熱度

2回答

集成Hbase和Hive的優勢

最近，我遇到了一個博客，作者提到了關於集成Hbase和Hive的博客。這將是可能的嗎？如果是的話，兩者的優勢是什麼（在性能和可伸縮性方面）。如果我錯了，請糾正我。

1熱度

1回答

如何在Amazon Elastic Mapreduce之上使用Hive來處理Amazon Simple DB中的數據？

我有很多亞馬遜簡單數據庫域中的數據。我想在Elastic Map Reduce（在hadoop之上）啓動Hive，並以某種方式從simpledb導入數據，或者連接到simpledb並在其上運行hiveql查詢。我有導入數據的問題。任何指針？

7熱度

3回答

Spring-Batch每小時一次的Hive/MySQL數據處理

我正在尋找替換一堆執行夜間/小時數據彙總和大量數據統計收集的Python ETL腳本。我想達成什麼是魯棒性 - 一個失敗的作業/步應自動重新啓動。在某些情況下，我想執行恢復步驟。框架必須能夠從崩潰中恢復。我想這裏需要一些持久性。監控 - 我需要能夠監控作業/步驟的進度，並且最好查看關於性能的歷史和統計數據。可追溯性 - 我必須能夠理解執行的狀態手動干預 - 很高興能...能夠從API/

0熱度

1回答

即使在hadoop/hive上的數據分發

我正在嘗試一個小型hadoop設置（用於實驗）只有2臺機器。我正在加載大約13GB的數據，大約3900萬行的表格，使用Hive的複製因子爲1。我的問題是hadoop始終將所有這些數據存儲在單個datanode上。只有當我使用setrep將dfs_replication因子更改爲2時，hadoop纔會在另一個節點上覆制數據。我也嘗試過平衡器（$HADOOP_HOME/bin/start-balan

1熱度

2回答

我應該如何分區s3中的數據以用於hadoop配置單元？

我有一個s3存儲桶，其中包含大約300GB的日誌文件，沒有特別的順序。我想要使用日期時間戳將這些數據分區以便在hadoop-hive中使用，以便與特定日期相關的日誌行聚集在同一個s3「文件夾」中。例如，對於1月1日的日誌條目將匹配下列命名文件： s3://bucket1/partitions/created_date=2010-01-01/file1 s3://bucket1/partitio