impala

    -1熱度

    1回答

    我試圖執行一個查詢,該函數的功能類似於lead .. over ..分區和Union。當我試圖在impala上運行它時,此查詢效果很好,但在Hive上失敗。 我需要編寫一個執行此查詢星火工作。它在SparkSQL中也失敗了,我的假設是因爲Spark 1.6在內部使用HiveQL來完成上述任務。 有一些不同的方式來讀取SparkSQL黑斑羚表?因爲在Hive中工作的基本查詢和Both都可以很好地與S

    0熱度

    1回答

    我們公司現在使用CDH 5.10和Impala 2.7版本作爲自己的數據背景,最近發現很頭疼。 部分查詢註銷查詢佔查詢時間的60%以上,但我把相同的SQL副本放入impala-shell的實現時間少得多,時間可能更少,可能是Unregister查詢時間。 你能幫我解惑嗎?有沒有辦法改進它? 附近有屏幕截圖。

    2熱度

    1回答

    我在配置單元中創建了一個視圖,它是一個複雜的查詢(具有連接,聯合等)。 當我在DF上執行查詢時,Catalyst & Tungsten工作還是100%配置? 我想問的是 - 我可以得到查詢視圖正在執行,然後使用spark sql來執行查詢 - 與催化劑&鎢的改進? 實施例: sqlContext.sql("select * from view") 視圖查詢上配置單元(蜂房上下文)運行,並且,以

    0熱度

    1回答

    准入控制嵌入在每個impalad守護程序中,並通過statestore服務進行通信。 impalad後臺程序確定查詢是立即運行還是查詢排隊。 但是,如果突然的請求流導致更多查詢的運行時間超出預期,則整個Impala內存限制和羣集級別的Linux cgroups機制將成爲防止內存過度分配的硬限制。當查詢達到這些限制時,Impala取消查詢。 這是否意味着Impala資源限制在個別Impala守護程序

    0熱度

    1回答

    我正在使用CDH 5.3.2集羣,並且需要能夠從腳本啓動/停止impala守護進程。在Cloudera的文檔 sudo service impala-server start 提到的命令工作正常,在我的CDH 5.10本地虛擬機,但鼎暉5.3.2集羣上我得到一個錯誤「黑斑羚服務器:無法識別的服務」。對在/etc/init.d檢查我發現沒有這樣的服務被列爲要麼(而其在5.10版上市) 然後我試圖

    0熱度

    2回答

    我的數據是這樣的: 我希望獲取與出現的小時間每dtcode的第一條記錄。 所需的輸出: 通過使用Scala的,我想取。 請指導我構建邏輯。 謝謝, Syam。

    -2熱度

    1回答

    我有一個ETL過程,其中由源系統供應商團隊在json文件中生成補充/增量加載,並提供給開發團隊在表中加載。源系統同意爲測試團隊提供excel電子表格,並對數據進行更改/更新。有沒有一種方法可以使用一些代碼/宏將Json文件轉換爲Excel。沒有指示器或日期字段來跟蹤加載的表中的更改。 SO輸入是excel表單和json文件。由於它是受監管的行業,因此不建議使用在線轉換器。如何做到這一點的任何想法,

    0熱度

    1回答

    我有一個1,700行查詢要在Impala-shell中執行。我創建了一個shell腳本如下命令: impala-shell -V -i hostname -q "[QUERY]" 然而,當我使用sh script.sh執行它,我得到了錯誤消息"Argument list too long"。我能夠使用Impala-shell命令運行更簡單/短的查詢。 我也嘗試通過運行命令ulimit -s 655

    0熱度

    1回答

    我知道在表上運行INVALIDATE METADATA語句會刷新它的元數據。它會也無效由COMPUTE STATS語句創建的任何元數據?

    0熱度

    1回答

    如何在impala中按小時計算datediff?比如像下面 Select datediff(hour,'2017-06-21T02:29:54.244720804Z', '2017-06-21T02:30:10.574379557Z'); 默認黑斑羚 'DATEDIFF' 功能只返回白天差異.. 更新: 解決我想通 select cast(abs((unix_timestamp('2017-0