2016-01-23 94 views

回答

0

目前尚不清楚「導出到HDFS」和「導入到Hive」的含義。無論如何,Hive數據文件都是存儲在HDFS中的

對於管理表中,與位於下相同的「位置」以確定的方式所有這些數據文件,做最簡單的事情是:

  • 打造集B有確切空管理的表相同的佈局和SERDE - 也創造所有預期的分區,如果在一個任何
  • distcp整個HDFS樹從「位置」到「位置」 B中
  • 完成!

這就是我們做克隆一些PROD數據(ORC W/gzip壓縮,按月分區)到測試集羣。

請注意,您可以將副本限制爲一個分區列表,在單個子目錄上使用多個distcp命令。

+0

你將如何在集羣B中使用完全相同的佈局和Serde_創建一個空的託管表? –

+0

你有原始的'CREATE TABLE'腳本存檔在代碼回購(Git,SVN等),對吧?在另一個集羣上再次運行它 –

+0

就像從客戶集羣獲取數據一樣,我們沒有這些腳本。我們沒有關於表格元數據的信息。 –