impala

0熱度

2回答

我使用SQL對帕拉一定的條件，我查詢的表格看起來像客戶名稱shop1 shop1number SHOP2 shop2number shop3 shop3number TOM AB 111 AA 231 321 AC AMY AC 121 AB 213 AD 231 弗蘭克AD AE 123 233 234 AB enter image description here 這裏，數字是客戶忠誠度數

1熱度

1回答

Hadoop的帕拉：格式數據類型整數日期/時間戳記使用更新時間函數

我在因帕拉工作如下表所示： customer_id | day_id | return_day_id ABC 20170830 20170923 BCD 20170830 20170901 不幸的是，無論是day_id & return_day_id字段INT而不是日期。如何將其數據類型更改爲日期，以便我可以在day_id後的4天內使用return_day_id來計算不同的cus

0熱度

1回答

將字符串轉換爲Hive中的時間戳

我有一個值'2017-09-27T19：25：15.927-07：00'，有什麼辦法將它轉換爲時間戳嗎？我使用Hive 1.1.0。 select unix_timestamp("2017-09-27T19:25:15.927-07:00", "yyyy-MM-ddTHH:mm:ss.SSSX")但它trows Bad date/time conversion format select uni

1熱度

3回答

處理的黑斑羚

空數據我想了解我使用下表 ╔════╦══════════════╦══════════╗ ║ id ║ name ║ salary ║ ╠════╬══════════════╬══════════╣ ║ 1 ║ cde ║ 5636 ║ ║ 2 ║ asd ║ 148 ║ ║ 3 ║ pwe ║ null ║ ║ 4 ║ lmn ║ 959 ║ ╚═══

0熱度

1回答

Impala：AnalysisException：LEFT OUTER JOIN需要ON或USING子句

我有一個基於存儲視頻查看記錄的Parquet文件的Impala表。結構是： VideoSession ... ... accountdata struct < ... ... emailid string ... ... > ... playbacksegments <

0熱度

1回答

我應該在連接條件還是先前的CTE中放置行號過濾器？

我有一個subscription表和一個payments表，我需要加入。我試圖在2個選項之間做出決定，性能是一個關鍵考慮因素。以下兩個選項中哪一個表現更好？我正在使用Impala，並且這些表很大（數百萬行）我只需要爲每個id和date分組（因此爲row_number()分析函數）獲得一行。我已經縮短了的查詢來說明我的問題： OPTION 1： WITH cte AS (

0熱度

1回答

Hadoop初學者 - 數據提取和分析

HDFS存儲結構化的&非結構化數據。熱線& IMPALA使我們能夠編寫SQL查詢，然後將其轉換爲MapReduce。用戶如何瞭解存儲數據的模式或者如何根據存儲的數據形成這些表格？

0熱度

1回答

impala是否支持數據庫遊標？

我試圖實現服務器端分頁。數據庫光標看起來像是一個很好的方法。 Impala是否支持像關係數據庫那樣的database cursors？該文件沒有明確提及它是否存在。

2熱度

1回答

如何爲多租戶配置Hive Impala/Spark？

試圖找出，但無法找到答案，當我想到以下。它涵蓋了Spark，Impala，MR，Hive多租戶。與Impala給出的情景。我覺得它可以應用於Spark，因爲Impala/Spark都是內存佔用。假設我們爲MR，Hive和Impala創建了一個具有多租戶的10節點集羣，其中靜態分配給Impala的資源爲40％。爲了運行Impala，我們創建了具有256 GB RAM數據節點的羣集。問題用這種我們正

2熱度

1回答

Impala ODBC/JDBC性能不佳 - 與NN相比，遠程服務器的行提取速度很慢

在CDH的NameNode中，當我通過odbc腳本（php/perl或python）運行查詢時，我可以獲取所有結果（9.2M）在一個變量中大約30秒，但是當我用相同的腳本/查詢試圖另一個遠程2級的服務器上時，執行時間是在第一服務器28分鐘和在第二17分鐘。要排除的假設，這是一個網絡速度問題，我獲取結果上的一個文件，然後我跟scp命令複製到第一個遠程服務器，並完成了〜40秒。我在查詢信息觀察什麼