0
我想蜂巢導出表從一個Hadoop集羣A到B.另一配置單元表導出到羣集+ distcp內的其他hadoop羣集或配置單元導出?
我有2種方法:
第一:
出口至A(同一集羣的HDFS)
distcp to hdfs of cluster B(不同簇)
- 進口蜂巢集B
二的:
- 出口到B的HDFS(不同簇)
- 進口配置B羣
是distcp增加額外的優勢嗎?
我想蜂巢導出表從一個Hadoop集羣A到B.另一配置單元表導出到羣集+ distcp內的其他hadoop羣集或配置單元導出?
我有2種方法:
第一:
出口至A(同一集羣的HDFS)
distcp to hdfs of cluster B(不同簇)
二的:
是distcp增加額外的優勢嗎?
目前尚不清楚「導出到HDFS」和「導入到Hive」的含義。無論如何,Hive數據文件都是存儲在HDFS中的!
對於管理表中,與位於下相同的「位置」以確定的方式所有這些數據文件,做最簡單的事情是:
distcp
整個HDFS樹從「位置」到「位置」 B中這就是我們做克隆一些PROD數據(ORC W/gzip壓縮,按月分區)到測試集羣。
請注意,您可以將副本限制爲一個分區列表,在單個子目錄上使用多個distcp
命令。
你將如何在集羣B中使用完全相同的佈局和Serde_創建一個空的託管表? –
你有原始的'CREATE TABLE'腳本存檔在代碼回購(Git,SVN等),對吧?在另一個集羣上再次運行它 –
就像從客戶集羣獲取數據一樣,我們沒有這些腳本。我們沒有關於表格元數據的信息。 –