impala

-1熱度

1回答

我試圖執行一個查詢，該函數的功能類似於lead .. over ..分區和Union。當我試圖在impala上運行它時，此查詢效果很好，但在Hive上失敗。我需要編寫一個執行此查詢星火工作。它在SparkSQL中也失敗了，我的假設是因爲Spark 1.6在內部使用HiveQL來完成上述任務。有一些不同的方式來讀取SparkSQL黑斑羚表？因爲在Hive中工作的基本查詢和Both都可以很好地與S

0熱度

1回答

impala註銷查詢長時間

我們公司現在使用CDH 5.10和Impala 2.7版本作爲自己的數據背景，最近發現很頭疼。部分查詢註銷查詢佔查詢時間的60％以上，但我把相同的SQL副本放入impala-shell的實現時間少得多，時間可能更少，可能是Unregister查詢時間。你能幫我解惑嗎？有沒有辦法改進它？附近有屏幕截圖。

2熱度

1回答

在DF上運行的視圖上的Spark sql查詢是什麼？

我在配置單元中創建了一個視圖，它是一個複雜的查詢（具有連接，聯合等）。當我在DF上執行查詢時，Catalyst & Tungsten工作還是100％配置？我想問的是 - 我可以得到查詢視圖正在執行，然後使用spark sql來執行查詢 - 與催化劑&鎢的改進？實施例： sqlContext.sql("select * from view") 視圖查詢上配置單元（蜂房上下文）運行，並且，以

0熱度

1回答

Impala資源管理

准入控制嵌入在每個impalad守護程序中，並通過statestore服務進行通信。 impalad後臺程序確定查詢是立即運行還是查詢排隊。但是，如果突然的請求流導致更多查詢的運行時間超出預期，則整個Impala內存限制和羣集級別的Linux cgroups機制將成爲防止內存過度分配的硬限制。當查詢達到這些限制時，Impala取消查詢。這是否意味着Impala資源限制在個別Impala守護程序

0熱度

1回答

CDH 5.3.2 - 需要從shell /腳本重新啓動impala守護進程

我正在使用CDH 5.3.2集羣，並且需要能夠從腳本啓動/停止impala守護進程。在Cloudera的文檔 sudo service impala-server start 提到的命令工作正常，在我的CDH 5.10本地虛擬機，但鼎暉5.3.2集羣上我得到一個錯誤「黑斑羚服務器：無法識別的服務」。對在/etc/init.d檢查我發現沒有這樣的服務被列爲要麼（而其在5.10版上市）然後我試圖

0熱度

2回答

如何使用scala獲取事務中的第一條記錄？

我的數據是這樣的：我希望獲取與出現的小時間每dtcode的第一條記錄。所需的輸出：通過使用Scala的，我想取。請指導我構建邏輯。謝謝， Syam。

-2熱度

1回答

如何將json文件轉換爲excel/sql查詢

我有一個ETL過程，其中由源系統供應商團隊在json文件中生成補充/增量加載，並提供給開發團隊在表中加載。源系統同意爲測試團隊提供excel電子表格，並對數據進行更改/更新。有沒有一種方法可以使用一些代碼/宏將Json文件轉換爲Excel。沒有指示器或日期字段來跟蹤加載的表中的更改。 SO輸入是excel表單和json文件。由於它是受監管的行業，因此不建議使用在線轉換器。如何做到這一點的任何想法，

0熱度

1回答

Impala-shell命令參數列表太長

我有一個1,700行查詢要在Impala-shell中執行。我創建了一個shell腳本如下命令： impala-shell -V -i hostname -q "[QUERY]" 然而，當我使用sh script.sh執行它，我得到了錯誤消息"Argument list too long"。我能夠使用Impala-shell命令運行更簡單/短的查詢。我也嘗試通過運行命令ulimit -s 655

0熱度

1回答

「無效元數據」對Impala中「COMPUTE STATS」的影響

我知道在表上運行INVALIDATE METADATA語句會刷新它的元數據。它會也無效由COMPUTE STATS語句創建的任何元數據？

0熱度

1回答

如何在impala中按小時計算datediff

如何在impala中按小時計算datediff？比如像下面 Select datediff(hour,'2017-06-21T02:29:54.244720804Z', '2017-06-21T02:30:10.574379557Z'); 默認黑斑羚 'DATEDIFF' 功能只返回白天差異.. 更新：解決我想通 select cast(abs((unix_timestamp('2017-0