我想避免在表創建時理想數據位置或佈局已知時,Impala節點不必要地通過網絡向其他節點請求數據。這對'非加法'操作很有幫助,無論如何,分區中的所有記錄都需要在同一個地方(節點)(例如百分位數)。通過分區控制Impala中的數據位置
是否有可能告訴Impala分區中的所有數據應始終共同位於任何HDFS副本的單個節點上?
在帕拉-SQL,我不知道,如果「分區BY」子句中提供此功能。在我的理解中,Impala將其分區分塊爲HDFS上的單獨文件,但HDFS不保證相關文件的共位或默認塊(而是試圖實現相反)。
發現了大約因帕拉對HDFS發展影響的一些信息,但尚不清楚,如果這些都已經在計劃實施或靜止:
http://www.slideshare.net/deview/aaron-myers-hdfs-impala (幻燈片23-24)
預先感謝您所有。
我認爲你錯過了這裏的觀點。有Impala分區(HDFS文件),這些文件的HDFS塊和這些塊的HDFS副本。目的是將與分區和**單個副本**相關的所有塊保存在同一個節點上。副本仍將放置在不同的節點上,但任何分區的所有數據都將位於節點的本地,這對於避免在網絡上進行某些操作的複製非常重要。 有關更多詳細信息,請參閱Aaron Myers(Cloudera的軟件工程師和Apache Hadoop提交者)上面提到的**幻燈片**。 – iSi
編輯該問題以使其更清晰。 – iSi