hive

    2熱度

    3回答

    我正在使用配置單元在HBase表上運行選擇查詢。 我想要檢索的所有行與時間戳值低則X. 我的問題是如何創建選擇查詢像這樣(我需要創建特定的方式蜂巢表?)

    3熱度

    1回答

    我是hadoop map reduce framework的新手,我正在考慮使用hadoop map reduce來解析我的數據。我有數千個大分隔文件,我正在考慮編寫一個map reduce作業來解析這些文件並將它們加載到配置單元數據倉庫中。我在perl中編寫了一個解析器,可以解析這些文件。但我堅持做與Hadoop地圖相同 例如:我有一個文件,如 x = ay = bz = c ..... x =

    4熱度

    4回答

    插入現有字段後,可以對Hive表進行分區嗎? 我有一個10 GB的文件,包含一個日期字段和一個小時的字段。我可以將這個文件加載到一個表中,然後插入覆蓋到另一個使用這些字段作爲分區的分區表中嗎?會像下面的工作? INSERT OVERWRITE TABLE tealeaf_event PARTITION(dt=evt.datestring,hour=evt.hour) SELECT * FROM

    0熱度

    1回答

    我可以通過 add file largelookuptable 將內容添加到分佈式緩存中,然後運行一堆HQL。 現在,當我有一系列命令時,如下面的 add file largelookuptable1; select blah from blahness using somehow largelookuptable1; add file largelookuptable2; select

    2熱度

    3回答

    我想高效地排序一個大數據集(即使用自定義分區程序,如下所述:How does the MapReduce sort algorithm work?),但我想用配置單元來完成。 但是,Hive手冊指出「order by」由單個reducer執行。 這令我感到驚訝,因爲豬實施類似於文章的東西 - pig impl 我是否錯過了某些東西,還是說這個配置單元並不是這個工作的正確選擇?

    0熱度

    1回答

    我想將HIVE作爲Web服務公開,以便我的PHP程序可以調用Web服務以在UI中顯示輸出。我不確定如何在HIVE中做到這一點。

    7熱度

    5回答

    我有一個可以並行化的解決方案,但我還沒有hadoop/nosql的經驗,我不確定哪個解決方案最適合我的需求。理論上,如果我有無限的CPU,我的結果應該立即返回。所以,任何幫助將不勝感激。謝謝! 這是我有: 數據集的1000 數據集鍵: 所有數據集具有相同的鍵 百萬鍵(這個以後可能10或20元) 數據集列: 每個數據集具有相同的列 10至20列 最列是一個我們需要聚合上(平均,STDDEV和用R計算

    6熱度

    2回答

    執行任何命令時,在Hive中出現以下錯誤。 hive> show tables; FAILED: Error in metadata: javax.jdo.JDOFatalInternalException: Unexpected exception caught. NestedThrowables: java.lang.reflect.InvocationTargetException

    2熱度

    1回答

    https://cwiki.apache.org/confluence/display/Hive/HivePlugins 蜂房提供了一種方法來註冊使用「添加罐」命令用戶定義的函數,應如何應用程序編程寄存器這些罐子? 如果在用戶定義的函數中某個特定的類定義發生了變化,我應該添加jar還是有一個不同的命令來實現這個功能。

    7熱度

    6回答

    在關係數據庫管理系統,如MySQL數據庫thereis,是否有數據庫還對蜂巢?正如我在手冊上閱讀,蜂巢只表,我有點迷惑一下吧.. ,什麼是RDBMS和蜂巢的不同概念? 韓國社交協會前