hive

4熱度

2回答

我有一個使用GREATEST()函數的MySQL查詢，我想在標準ANSI SQL中重寫它以在其他數據庫上運行。我知道大多數SQL數據庫都支持GREATEST，但我可能會在Hive中運行查詢，它支持像CASE這樣的東西，但不是最好的。任何人都可以想到一個優雅的方式來重寫這個查詢，而不使用GREATEST()？謝謝！ select greatest(play,play_25,play_50,pl

2熱度

4回答

使用Hadoop開發Web分析

我想開發一個Web分析平臺，以便通過解析apache訪問日誌來創建關於Web流量（頁面查看，訪問，訪問者等）的聚合數據。我可以只使用Hadoop和pure Map/Reduce作業嗎？這是一個矯枉過正或「必須」使用蜂巢？

5熱度

2回答

使用Pig/Hive進行數據處理而不是直接java map縮減代碼？

（甚至比Difference between Pig and Hive? Why have both?更基本的）我已經寫在數據處理流水線數的Java的map-reduce任務在Hadoop的（我自己的自定義代碼，從Hadoop的映射和減速派生）。這是一系列基本操作，例如連接，反轉，排序和分組。我的代碼涉及到，而不是非常通用的。繼續這種公認的開發密集型方法與使用多個UDF將所有內容遷移到Pig/

3熱度

1回答

Hadoop的/蜂房查詢，以一列分割成若干個

我使用HIVE兩個表看上去像（更多或更少）： -TABLE1定義爲[（變量：字符串），（值1：INT），（值2：INT）] 與現場的「變量」看上去像「X0，X1，X2，X3，...，XN」 -TABLE2定義爲[（Value1Sum：INT），（Value2Sum： int），（X1：字符串），（X4：字符串），（X17：字符串）] 我「轉換」table1到table2與查詢： INSER

4熱度

3回答

驗證Hive HQL語法？

是否有編程方式來驗證HiveQL語句是否存在像基本語法錯誤這樣的錯誤？爲了節省調試時間，我希望在將它們發送到Elastic Map Reduce之前檢查它們。

2熱度

1回答

使用Hbase配置Hive

我需要使用配置單元在HBase上執行查詢。我已經下載了HBase並配置了我的HMaster，運行良好;我需要知道我需要爲配置單元使用HBase作爲後端數據庫進行哪些配置更改。任何鏈接教程將不勝感激。在此先感謝。

2熱度

1回答

將數據從配置單元中取出並存入mysql @ AWS？

我很喜歡使用Sqoop，但不認爲值得在這裏使用ElasticMapReduce（我真的很喜歡）運行Cloudera stack @ AWS。我目前的想法只是將我需要的數據寫入到位於@ S3的外部表中，然後編寫腳本將其導入到mysql中。亞馬遜有SimpleDB的一些東西（example），但我不確定那條路線嗎？對S3中的數據感到滿意，只是想知道是否有人有更好的主意。謝謝！

3熱度

3回答

在配置單元查詢中使用map/reduce java類

我讀過，在hive查詢中，我們可以使用map/reduce腳本。我們可以在Hive查詢中使用java map/reduce類。如果是這樣，請你提供樣品。感謝 MRK

1熱度

2回答

蜂巢：從現有的分區表

我使用Amazon的Elastic MapReduce的創建新表，我有一個蜂巢表基礎上創建的文件夾中的一系列的Amazon S3存儲日誌文件和拆分一天像這樣：數據/天= 2011-09-01/log_file.tsv 數據/天= 2011-09-02/log_file.tsv 目前我正在試圖創建過濾掉一些額外的表這些日誌文件中的不需要的活動，但我不知道如何做到這一點，並不斷收到錯誤，如： FAI

1熱度

1回答

cloudera vm hadoop Hive在fs.http.address ip變更後失敗

我使用Cloudera VM（cdh3u2）作爲模擬分佈式文件系統。爲了執行文件創建和從Web服務器寫入，我將fs.http.address屬性更改爲指向VM IP。此功能正常工作。問題出現時HIVE執行地圖縮小像 SELECT COUNT(*) FROM tmp2; 的消息我得到的工作是： hive> select count(*) from tmp2; Total MapReduce