2017-08-10 46 views
0

我使用Avro的文件數據存儲在HDFS複製。我需要從一個avro文件複製選定的列數據並將其發送到同一個集羣中具有其自己的模式文件(具有選定列信息)的另一個位置。我怎樣才能做到這一點?是否可以使用Hive實現?或者HDFS中是否有任何實用工具可以幫助我做到這一點?HDFS集羣內與選定列

這是必需的,因爲一組必須能夠訪問整個表,而另一組應該能夠訪問只有幾列。所以,我需要它們只在HDFS中的一個單獨位置,只有所需的模式和avro文件。

+0

請分享您的單詞詳細信息 – Raghavendra

+0

_「intercluster」_表示您正在兩個不同的羣集之間移動數據。這裏不是這種情況。請刪除該單詞或替換爲「intracluster」(但沒有用)。 –

回答

0

哪裏倍數爲創造這樣做,我會說,最簡單的是使用蜂巢或火花。在配置單元中,您可以使用閱讀器模式(僅限於所需字段)創建表並將表位置指向目標目錄。之後,您需要的僅僅是從源表中插入,只選擇要放入閱讀器表的字段。

正如一個評論,創造一個閱讀器模式是一個很好的解決方案,以避免在這樣的情況下,數據複製。如果沒有嚴格要求創建數據的子集,我建議使用閱讀器模式