hive

    1熱度

    2回答

    我一直在考慮如何在Hive中執行此操作。 例如,我在我想提取的日誌文件中有一個特定的字段(這已經可以在Hive中實現),然後我想將該字段的值映射到其他值。該映射由自定義的業務邏輯確定,該業務邏輯在Java類中編碼。 如何在Hive中使用此Java類?

    28熱度

    3回答

    我正在尋找Hive中的內置字符串拆分函數? 例如如果字符串是 A | B | C | d |電子 然後我想有像 陣列分裂的功能(字符串輸入,字符分隔符) 使得我回來[A, B,C,d,E]。 Hive中是否存在這樣的內置分割函數? 我只能看到regexp_extract和regexp_replace。我很想看到一個indexOf()和split() 字符串函數。 感謝 阿賈伊

    12熱度

    4回答

    所以我有5行這樣 userid, col -------------- 1, a 1, b 2, c 2, d 3, e 我會怎麼做查詢,使其看起來像這樣 userid, combined 1, a b 2, c d 3, e

    2熱度

    1回答

    在MySQL可以匹配「12684041234」的最長前綴你會做 SELECT num_prefix FROM nums WHERE '12684041234' LIKE CONCAT(num_prefix, '%') AND LENGTH(num_prefix) = ( SELECT MAX(LENGTH(num_prefix)) FROM nums WHERE

    4熱度

    1回答

    我的配置單元查詢有多個外部連接,需要很長時間才能執行。我想知道是否將它分解成多個較小的查詢並使用豬進行轉換是有意義的。 有沒有一種方法可以查詢配置單元表或讀取豬腳本中的配置單元表數據? 感謝

    2熱度

    2回答

    最近,我遇到了一個博客,作者提到了關於集成Hbase和Hive的博客。這將是可能的嗎?如果是的話,兩者的優勢是什麼(在性能和可伸縮性方面)。如果我錯了,請糾正我。

    1熱度

    1回答

    我有很多亞馬遜簡單數據庫域中的數據。我想在Elastic Map Reduce(在hadoop之上)啓動Hive,並以某種方式從simpledb導入數據,或者連接到simpledb並在其上運行hiveql查詢。我有導入數據的問題。任何指針?

    7熱度

    3回答

    我正在尋找替換一堆執行夜間/小時數據彙總和大量數據統計收集的Python ETL腳本。 我想達成什麼是 魯棒性 - 一個失敗的作業/步應自動重新啓動。在某些情況下,我想執行恢復步驟。 框架必須能夠從崩潰中恢復。我想這裏需要一些持久性。 監控 - 我需要能夠監控作業/步驟的進度,並且最好查看關於性能的歷史和統計數據。 可追溯性 - 我必須能夠理解執行的狀態 手動干預 - 很高興能...能夠從API/

    0熱度

    1回答

    我正在嘗試一個小型hadoop設置(用於實驗)只有2臺機器。我正在加載大約13GB的數據,大約3900萬行的表格,使用Hive的複製因子爲1。 我的問題是hadoop始終將所有這些數據存儲在單個datanode上。只有當我使用setrep將dfs_replication因子更改爲2時,hadoop纔會在另一個節點上覆制數據。我也嘗試過平衡器($HADOOP_HOME/bin/start-balan

    1熱度

    2回答

    我有一個s3存儲桶,其中包含大約300GB的日誌文件,沒有特別的順序。 我想要使用日期時間戳將這些數據分區以便在hadoop-hive中使用,以便與特定日期相關的日誌行聚集在同一個s3「文件夾」中。例如,對於1月1日的日誌條目將匹配下列命名文件: s3://bucket1/partitions/created_date=2010-01-01/file1 s3://bucket1/partitio