hive

2熱度

3回答

我正在使用配置單元在HBase表上運行選擇查詢。我想要檢索的所有行與時間戳值低則X. 我的問題是如何創建選擇查詢像這樣（我需要創建特定的方式蜂巢表？）

3熱度

1回答

我是hadoop map reduce framework的新手，我正在考慮使用hadoop map reduce來解析我的數據。我有數千個大分隔文件，我正在考慮編寫一個map reduce作業來解析這些文件並將它們加載到配置單元數據倉庫中。我在perl中編寫了一個解析器，可以解析這些文件。但我堅持做與Hadoop地圖相同例如：我有一個文件，如 x = ay = bz = c ..... x =

4熱度

4回答

按現有字段分區Hive表？

插入現有字段後，可以對Hive表進行分區嗎？我有一個10 GB的文件，包含一個日期字段和一個小時的字段。我可以將這個文件加載到一個表中，然後插入覆蓋到另一個使用這些字段作爲分區的分區表中嗎？會像下面的工作？ INSERT OVERWRITE TABLE tealeaf_event PARTITION(dt=evt.datestring,hour=evt.hour) SELECT * FROM

0熱度

1回答

配置單元：從分佈式緩存中刪除內容

我可以通過 add file largelookuptable 將內容添加到分佈式緩存中，然後運行一堆HQL。現在，當我有一系列命令時，如下面的 add file largelookuptable1; select blah from blahness using somehow largelookuptable1; add file largelookuptable2; select

2熱度

3回答

如何高效地將hive數據與配置單元進行排序（排序）？

我想高效地排序一個大數據集（即使用自定義分區程序，如下所述：How does the MapReduce sort algorithm work?），但我想用配置單元來完成。但是，Hive手冊指出「order by」由單個reducer執行。這令我感到驚訝，因爲豬實施類似於文章的東西 - pig impl 我是否錯過了某些東西，還是說這個配置單元並不是這個工作的正確選擇？

0熱度

1回答

作爲Web服務的Apache HIVE工作

我想將HIVE作爲Web服務公開，以便我的PHP程序可以調用Web服務以在UI中顯示輸出。我不確定如何在HIVE中做到這一點。

7熱度

5回答

實時查詢/彙總數百萬條記錄 - hadoop？ HBase的？卡桑德拉？

我有一個可以並行化的解決方案，但我還沒有hadoop/nosql的經驗，我不確定哪個解決方案最適合我的需求。理論上，如果我有無限的CPU，我的結果應該立即返回。所以，任何幫助將不勝感激。謝謝！這是我有：數據集的1000 數據集鍵：所有數據集具有相同的鍵百萬鍵（這個以後可能10或20元）數據集列：每個數據集具有相同的列 10至20列最列是一個我們需要聚合上（平均，STDDEV和用R計算

6熱度

2回答

配置單元在安裝時不起作用

執行任何命令時，在Hive中出現以下錯誤。 hive> show tables; FAILED: Error in metadata: javax.jdo.JDOFatalInternalException: Unexpected exception caught. NestedThrowables: java.lang.reflect.InvocationTargetException

2熱度

1回答

部署罐子用戶定義函數

https://cwiki.apache.org/confluence/display/Hive/HivePlugins 蜂房提供了一種方法來註冊使用「添加罐」命令用戶定義的函數，應如何應用程序編程寄存器這些罐子？如果在用戶定義的函數中某個特定的類定義發生了變化，我應該添加jar還是有一個不同的命令來實現這個功能。

7熱度

6回答

RDBMS和Hive有什麼不同？

在關係數據庫管理系統，如MySQL數據庫thereis，是否有數據庫還對蜂巢？正如我在手冊上閱讀，蜂巢只表，我有點迷惑一下吧.. ，什麼是RDBMS和蜂巢的不同概念？韓國社交協會前