impala

0熱度

1回答

我一直在EMR上試驗Impala，在我看來，它只使用集羣中的核心節點，而不是任務節點。我使用EMR提供的內置Impala安裝，它是1.2.4。當我的集羣中有任務節點時，它們出現在Impalad管理應用程序的「已知後端」列表中。但是，在「查詢」頁面的「查詢位置」下，它只顯示羣集中核心節點的主機名，而不顯示任務節點。這表明查詢只在核心節點上運行。也許是因爲HDFS只在核心節點上？任何人都可以證實這

0熱度

1回答

Cloudera的Impala的SQL表用方括號中的列名

我對形式的語句CREATE： CREATE TABLE my_table (`hello_[3]` INT) 當我嘗試通過JDBC或色調來運行它，我得到： **AnalysisException: Invalid column/field name: hello_[3]** 試圖引用產生相同結果的其他方法： CREATE TABLE my_table ('hello_[3]' INT) ^

4熱度

2回答

有沒有辦法用參數運行sql腳本運行impala shell？

有什麼方法可以用參數運行SQL腳本運行impala shell？例如： impala-shell -f /home/john/sql/load.sql /dir1/dir2/dir3/data_file 我得到的錯誤：錯誤，無法分析參數「-f /home/john/sql/load.sql/DIR1/DIR2/DIR3/DATA_FILE」

0熱度

1回答

是否有Impala嵌套數據？

根據這個http://impala.io/overview.html，impala 2.1應該支持嵌套數據。我正在使用impala 2.1.1，但沒有找到任何有關嵌套數據的文檔。有人知道Impala何時支持嵌套數據嗎？

0熱度

1回答

用於研究的大型開放源代碼數據集

請幫助我找到用於數據挖掘研究項目的海量數據集。，如果你給我建議任何搜索引擎數據（谷歌/雅虎用戶的搜索歷史記錄）或維基百科的用戶查看統計或Twitter的用戶鳴叫數據集這將是非常有益的。我正在研究hadoop框架和數據庫，因此我想要在每個表中的數百萬條記錄。

0熱度

1回答

帕拉數據類型

我想了解以下數據tyoes之間的差異在帕拉字符串字符的Varchar 上閱讀這將是作爲模式需要3種不同的類型。我想知道在我們知道列長度上限的情況下，是否有任何性能優勢在字符串上使用Char/Varchars？

0熱度

1回答

實木複合地板二進制數據類型

我有一個關於二進制數據類型的問題。我想爲我的MR作業寫一個Parquet Schema來創建Parquet文件，這與Hive或Impala創建Parquet文件相反。我看到一些二進制類型的引用，我沒有在Parquet中看到二進制是BYTE_ARRAY的別名嗎？也是UTF-8在二進制數據類型上的默認編碼？

2熱度

2回答

有關如何在shell腳本

我試圖執行此bash的代碼時，有一個問題中運行的黑斑羚殼： function createImpalaPartition() { period_id=$1; database=$2 node=$3 actual_full=$(date [email protected]"$period_id" +%Y/%m/%d/%H/%M/) template="use c2d;create EX

0熱度

1回答

分區列上的Hive/Impala計數不同會導致所有數據文件被讀取？

當根據分區列查詢表蜂房，這將是合乎邏輯的，一個簡單的 select count(distinct partitioned_column_name) from my_partitioned_table 將完成幾乎瞬間。但我們看到，蜂房和黑斑羚都無法正確執行此查詢：他們只是讀整個表！我們需要做些什麼來確保上述命令能夠快速執行？

0熱度

2回答

Hive查詢語言只返回值不在其他表中的值