0
我正在更改hdfs目錄結構。 目前的一個情況如下:在hdfs中移動和合並目錄
.../customers/customers1/2016-05-16-10/lots_of_files1.csv
.../customers/customers2/2016-05-16-10/lots_of_files2.csv
.../customers/customers3/2016-05-16-10/lots_of_files1.csv
.../customers/customers4/2016-05-16-10/...
.../customers/customers5/2016-05-16-10/...
.../customers/customers6/2016-05-16-10/...
.../customers/customers7/2016-05-16-10/...
我想擺脫的客戶(1-7):
.../customers/2016-05-16-10/lots_of_files1.csv
.../customers/2016-05-16-10/lots_of_files2.csv
.../customers/2016-05-16-10/lots_of_files1(1).csv
我想用毒蛇咬傷蟒蛇HDFS庫,但很多邊緣出現以下情況: 1.同一日期可能會多次出現。 2. csv的名稱可能會多次出現,但它的數據是不同的,並且必須移動。
你如何以最乾淨的方式實現它?
它如何處理具有相同名稱的csvs? @vgunnu – TheSilence
將該文件夾中的所有文件合併到新文件中。與Hive類似 – vgunnu